Modele5 min czytaniaHugging Face Blog

Granite 4.0 3B Vision: Kompaktowa multimodalna AI do dokumentów biznesowych

P
Redakcja Pixelift0 views
Udostępnij
Granite 4.0 3B Vision: Kompaktowa multimodalna AI do dokumentów biznesowych

Foto: Hugging Face Blog

Aż 1,7 miliona zróżnicowanych wykresów i schematów posłużyło do wytrenowania Granite 4.0 3B Vision – nowego, kompaktowego modelu od IBM, który redefiniuje sposób, w jaki sztuczna inteligencja analizuje dokumentację korporacyjną. Zaprezentowane 31 marca 2026 roku rozwiązanie typu Vision-Language Model (VLM) skupia się na precyzyjnej ekstrakcji danych z tabel, wykresów oraz formularzy, osiągając imponujący wynik 86,4% w testach Chart2Summary. Sercem systemu jest innowacyjna architektura DeepStack Injection, która rozdziela przetwarzanie cech semantycznych od detali przestrzennych o wysokiej rozdzielczości, co pozwala modelowi zrozumieć nie tylko treść, ale i skomplikowany układ wizualny dokumentu. Dla użytkowników biznesowych kluczowa jest modułowość: Granite 4.0 3B Vision funkcjonuje jako adapter LoRA nałożony na bazowy model tekstowy Granite 4.0 Micro. W praktyce oznacza to, że jedna wdrożona instancja może płynnie przełączać się między analizą obrazów a zadaniami czysto tekstowymi, co drastycznie obniża koszty infrastruktury przy zachowaniu wysokiej wydajności. Dzięki integracji z narzędziem Docling, firmy zyskują potężne narzędzie do automatyzacji procesów back-office, zdolne do przekształcania nieustrukturyzowanych skanów w gotowe do użycia bazy danych. To wyraźny krok w stronę democratyzacji zaawansowanego AI w środowiskach o ograniczonych zasobach sprzętowych.

Architektura DeepStack i moc precyzyjnego wtrysku danych

Kluczem do sukcesu nowego modelu IBM jest odejście od tradycyjnych metod łączenia obrazu z tekstem. Większość współczesnych modeli VLM wprowadza informacje wizualne do sieci neuronowej w jednym, konkretnym punkcie. Powoduje to, że model musi jednocześnie radzić sobie z ogólnym zrozumieniem kontekstu (np. "to jest faktura") oraz z mikroskopijnymi detalami przestrzennymi (np. "ta kropka to przecinek w kwocie 1.000,00"). Granite 4.0 3B Vision rozwiązuje ten problem poprzez innowacyjną architekturę **DeepStack Injection**. W tym podejściu abstrakcyjne cechy wizualne są kierowane do wcześniejszych warstw modelu, co buduje fundament dla semantycznego zrozumienia treści. Z kolei szczegółowe cechy o wysokiej rozdzielczości trafiają do późniejszych warstw, co pozwala zachować precyzję niezbędną do identyfikacji układu dokumentu. Dzięki temu model doskonale "wie", nie tylko co znajduje się w dokumencie, ale przede wszystkim – gdzie dokładnie dany element jest umiejscowiony. Jest to krytyczne przy ekstrakcji par klucz-wartość (KVP), gdzie relacja przestrzenna między etykietą a polem wpisu definiuje poprawność danych.
Wykres wydajności modelu Granite 4.0 3B Vision w porównaniu do konkurencji
Porównanie wydajności Granite 4.0 3B Vision z większymi modelami w zadaniach konwersji wykresów na formaty strukturalne.

ChartNet: Jak nauczyć AI czytać wykresy

Zrozumienie wykresów od lat stanowi barierę dla mniejszych modeli AI. Wymaga to bowiem połączenia percepcji wizualnej, rozumowania numerycznego i interpretacji języka naturalnego. Aby przełamać ten impas, zespół badawczy IBM stworzył **ChartNet** – potężny zbiór danych syntetycznych obejmujący 1,7 miliona próbek. Dane te nie są prostymi obrazkami; każda próbka w ChartNet zawiera kod generujący wykres, renderowany obraz, tabelę źródłową, podsumowanie tekstowe oraz pary pytań i odpowiedzi (QA). Dzięki zastosowaniu potoku syntezy sterowanego kodem, model uczy się głębokich relacji między danymi a ich wizualną reprezentacją. Granite 4.0 3B Vision nie tylko opisuje, że widzi "wykres słupkowy", ale potrafi przekonwertować go z powrotem na format maszynowy, taki jak JSON czy CSV, z dokładnością przewyższającą znacznie większe modele. W testach **Chart2Summary**, model osiągnął imponujący wynik 86,4%, deklasując konkurencję. W zadaniu **Chart2CSV** z wynikiem 62,1% ustąpił jedynie modelowi Qwen3.5-9B, który jest od niego trzykrotnie większy.

Ekstrakcja tabel i danych strukturalnych na najwyższym poziomie

Przetwarzanie tabel to "święty Graal" automatyzacji dokumentów. Granite 4.0 3B Vision został poddany rygorystycznym testom na benchmarkach takich jak **TableVQA-extract**, **OmniDocBench-tables** oraz **PubTables-v2**. Wyniki są jednoznaczne: model dominuje w zadaniach ekstrakcji struktur HTML z dokumentów. Na szczególną uwagę zasługuje wynik 92,1 w skali TEDS dla wyciętych fragmentów tabel oraz 79,3 dla całostronicowych dokumentów w benchmarku PubTables-v2. To, co wyróżnia Granite na tle innych rozwiązań, to zdolność do radzenia sobie z tzw. "brudnymi danymi" i skomplikowanymi układami (multi-row, multi-column). Model nie gubi się, gdy tabela jest osadzona w gęstym tekście lub gdy posiada nieregularne obramowanie. W teście **VAREX**, który symuluje realne formularze rządowe USA o wysokim stopniu skomplikowania, model uzyskał 85,5% dokładności w trybie zero-shot (bez wcześniejszego douczania na konkretnych przykładach).
Analiza wydajności ekstrakcji tabel
Wyniki testów ekstrakcji tabel na różnych benchmarkach – Granite 4.0 3B Vision wyznacza nowe standardy dla małych modeli.

Modułowość i synergia z ekosystemem Docling

IBM postawił na praktyczność wdrożeniową. Granite 4.0 3B Vision jest dostarczany jako adapter **LoRA** nałożony na bazowy model językowy **Granite 4.0 Micro**. Taka konstrukcja pozwala firmom na utrzymanie jednej infrastruktury serwerowej dla wielu zadań. Jeśli system przetwarza dokument tekstowy, używa bazy Micro; jeśli napotka obraz lub tabelę, aktywuje warstwę Vision. To drastycznie redukuje zużycie pamięci VRAM i upraszcza architekturę potoków danych. Model ten staje się jeszcze potężniejszy, gdy zostanie zintegrowany z narzędziem **Docling**. W takim duecie proces wygląda następująco:
  • Docling odpowiada za wstępne parsowanie układu strony, OCR oraz segmentację elementów wizualnych.
  • Wykryte tabele i wykresy są "wycinane" i przesyłane do Granite 4.0 3B Vision.
  • Model Vision dokonuje precyzyjnej ekstrakcji danych do formatu JSON, CSV lub HTML.
  • Wynik końcowy to w pełni przeszukiwalny, strukturalny dokument, gotowy do analizy przez systemy BI lub bazy danych RAG.

Nowy standard wydajności w skali mikro

Wprowadzenie Granite 4.0 3B Vision pod licencją **Apache 2.0** na platformie HuggingFace to moment przełomowy dla otwartego oprogramowania AI. IBM udowadnia, że optymalizacja architektury i jakości danych treningowych (jak w przypadku ChartNet) jest ważniejsza niż bezmyślne skalowanie liczby parametrów. Dla przedsiębiorstw oznacza to możliwość uruchomienia zaawansowanej analizy dokumentów lokalnie, na relatywnie tanim sprzęcie, przy zachowaniu pełnej kontroli nad prywatnością danych. Moim zdaniem, kierunek obrany przez IBM – tworzenie małych, "ostrych" narzędzi zamiast wielkich, "tępych" modeli – stanie się dominującym trendem w 2026 roku. Granite 4.0 3B Vision nie próbuje być poetą ani programistą; chce być najlepszym na świecie cyfrowym archiwistą i analitykiem danych. I patrząc na wyniki benchmarków, jest na najlepszej drodze, by ten cel osiągnąć. To model, który nie tylko rozumie dokumenty, ale przede wszystkim rozumie realia biznesowe, w których liczy się koszt, szybkość i bezbłędność.
Źródło: Hugging Face Blog
Udostępnij

Komentarze

Loading...