Granite 4.0 3B Vision: Kompaktowa multimodalna AI do dokumentów biznesowych
Foto: Hugging Face Blog
Aż 1,7 miliona zróżnicowanych wykresów i schematów posłużyło do wytrenowania Granite 4.0 3B Vision – nowego, kompaktowego modelu od IBM, który redefiniuje sposób, w jaki sztuczna inteligencja analizuje dokumentację korporacyjną. Zaprezentowane 31 marca 2026 roku rozwiązanie typu Vision-Language Model (VLM) skupia się na precyzyjnej ekstrakcji danych z tabel, wykresów oraz formularzy, osiągając imponujący wynik 86,4% w testach Chart2Summary. Sercem systemu jest innowacyjna architektura DeepStack Injection, która rozdziela przetwarzanie cech semantycznych od detali przestrzennych o wysokiej rozdzielczości, co pozwala modelowi zrozumieć nie tylko treść, ale i skomplikowany układ wizualny dokumentu. Dla użytkowników biznesowych kluczowa jest modułowość: Granite 4.0 3B Vision funkcjonuje jako adapter LoRA nałożony na bazowy model tekstowy Granite 4.0 Micro. W praktyce oznacza to, że jedna wdrożona instancja może płynnie przełączać się między analizą obrazów a zadaniami czysto tekstowymi, co drastycznie obniża koszty infrastruktury przy zachowaniu wysokiej wydajności. Dzięki integracji z narzędziem Docling, firmy zyskują potężne narzędzie do automatyzacji procesów back-office, zdolne do przekształcania nieustrukturyzowanych skanów w gotowe do użycia bazy danych. To wyraźny krok w stronę democratyzacji zaawansowanego AI w środowiskach o ograniczonych zasobach sprzętowych.
Architektura DeepStack i moc precyzyjnego wtrysku danych
Kluczem do sukcesu nowego modelu IBM jest odejście od tradycyjnych metod łączenia obrazu z tekstem. Większość współczesnych modeli VLM wprowadza informacje wizualne do sieci neuronowej w jednym, konkretnym punkcie. Powoduje to, że model musi jednocześnie radzić sobie z ogólnym zrozumieniem kontekstu (np. "to jest faktura") oraz z mikroskopijnymi detalami przestrzennymi (np. "ta kropka to przecinek w kwocie 1.000,00"). Granite 4.0 3B Vision rozwiązuje ten problem poprzez innowacyjną architekturę **DeepStack Injection**. W tym podejściu abstrakcyjne cechy wizualne są kierowane do wcześniejszych warstw modelu, co buduje fundament dla semantycznego zrozumienia treści. Z kolei szczegółowe cechy o wysokiej rozdzielczości trafiają do późniejszych warstw, co pozwala zachować precyzję niezbędną do identyfikacji układu dokumentu. Dzięki temu model doskonale "wie", nie tylko co znajduje się w dokumencie, ale przede wszystkim – gdzie dokładnie dany element jest umiejscowiony. Jest to krytyczne przy ekstrakcji par klucz-wartość (KVP), gdzie relacja przestrzenna między etykietą a polem wpisu definiuje poprawność danych.
ChartNet: Jak nauczyć AI czytać wykresy
Zrozumienie wykresów od lat stanowi barierę dla mniejszych modeli AI. Wymaga to bowiem połączenia percepcji wizualnej, rozumowania numerycznego i interpretacji języka naturalnego. Aby przełamać ten impas, zespół badawczy IBM stworzył **ChartNet** – potężny zbiór danych syntetycznych obejmujący 1,7 miliona próbek. Dane te nie są prostymi obrazkami; każda próbka w ChartNet zawiera kod generujący wykres, renderowany obraz, tabelę źródłową, podsumowanie tekstowe oraz pary pytań i odpowiedzi (QA). Dzięki zastosowaniu potoku syntezy sterowanego kodem, model uczy się głębokich relacji między danymi a ich wizualną reprezentacją. Granite 4.0 3B Vision nie tylko opisuje, że widzi "wykres słupkowy", ale potrafi przekonwertować go z powrotem na format maszynowy, taki jak JSON czy CSV, z dokładnością przewyższającą znacznie większe modele. W testach **Chart2Summary**, model osiągnął imponujący wynik 86,4%, deklasując konkurencję. W zadaniu **Chart2CSV** z wynikiem 62,1% ustąpił jedynie modelowi Qwen3.5-9B, który jest od niego trzykrotnie większy.Ekstrakcja tabel i danych strukturalnych na najwyższym poziomie
Przetwarzanie tabel to "święty Graal" automatyzacji dokumentów. Granite 4.0 3B Vision został poddany rygorystycznym testom na benchmarkach takich jak **TableVQA-extract**, **OmniDocBench-tables** oraz **PubTables-v2**. Wyniki są jednoznaczne: model dominuje w zadaniach ekstrakcji struktur HTML z dokumentów. Na szczególną uwagę zasługuje wynik 92,1 w skali TEDS dla wyciętych fragmentów tabel oraz 79,3 dla całostronicowych dokumentów w benchmarku PubTables-v2. To, co wyróżnia Granite na tle innych rozwiązań, to zdolność do radzenia sobie z tzw. "brudnymi danymi" i skomplikowanymi układami (multi-row, multi-column). Model nie gubi się, gdy tabela jest osadzona w gęstym tekście lub gdy posiada nieregularne obramowanie. W teście **VAREX**, który symuluje realne formularze rządowe USA o wysokim stopniu skomplikowania, model uzyskał 85,5% dokładności w trybie zero-shot (bez wcześniejszego douczania na konkretnych przykładach).
Modułowość i synergia z ekosystemem Docling
IBM postawił na praktyczność wdrożeniową. Granite 4.0 3B Vision jest dostarczany jako adapter **LoRA** nałożony na bazowy model językowy **Granite 4.0 Micro**. Taka konstrukcja pozwala firmom na utrzymanie jednej infrastruktury serwerowej dla wielu zadań. Jeśli system przetwarza dokument tekstowy, używa bazy Micro; jeśli napotka obraz lub tabelę, aktywuje warstwę Vision. To drastycznie redukuje zużycie pamięci VRAM i upraszcza architekturę potoków danych. Model ten staje się jeszcze potężniejszy, gdy zostanie zintegrowany z narzędziem **Docling**. W takim duecie proces wygląda następująco:- Docling odpowiada za wstępne parsowanie układu strony, OCR oraz segmentację elementów wizualnych.
- Wykryte tabele i wykresy są "wycinane" i przesyłane do Granite 4.0 3B Vision.
- Model Vision dokonuje precyzyjnej ekstrakcji danych do formatu JSON, CSV lub HTML.
- Wynik końcowy to w pełni przeszukiwalny, strukturalny dokument, gotowy do analizy przez systemy BI lub bazy danych RAG.


