Modele5 min czytaniaHugging Face Blog

Falcon Perception – nowy model AI od TII do analizy obrazu i wideo

P
Redakcja Pixelift0 views
Udostępnij
Falcon Perception – nowy model AI od TII do analizy obrazu i wideo

Foto: Hugging Face Blog

Zaledwie 600 milionów parametrów wystarczyło, aby model Falcon Perception osiągnął wynik 68,0 Macro-F1 w teście SA-Co, deklasując znacznie większy system SAM 3, który uzyskał 62,3 punktu. Naukowcy z TII zaprezentowali przełomową architekturę typu early-fusion Transformer, która rezygnuje ze skomplikowanych potoków (pipelines) na rzecz jednego, spójnego szkieletu przetwarzającego jednocześnie patche obrazu i tekst. Kluczem do sukcesu jest mechanizm hybrydowej uwagi (hybrid attention) oraz autorska metoda Chain-of-Perception. Model analizuje obiekty w logicznej kolejności: od wyznaczenia współrzędnych, przez określenie rozmiaru, aż po generowanie precyzyjnej maski segmentacyjnej. Dzięki temu system radzi sobie z otwartym słownictwem i potrafi identyfikować instancje na podstawie naturalnych komend językowych. Równolegle zadebiutował Falcon OCR – lekki model (0,3B parametrów), który oferuje najwyższą przepustowość wśród rozwiązań open-source, osiągając wynik 88,6 w benchmarku OmniDocBench. Dla użytkowników i twórców technologii oznacza to nową erę wydajnej analizy wizualnej. Możliwość uruchamiania zaawansowanej segmentacji i odczytu tekstu przy minimalnym zapotrzebowaniu na zasoby obliczeniowe otwiera drogę do błyskawicznego przetwarzania obrazów w czasie rzeczywistym, nawet w zatłoczonych i złożonych scenach. Tak wysoka sprawność przy zachowaniu otwartoźródłowego charakteru projektu stanowi realną alternatywę dla ciężkich, zamkniętych modeli komercyjnych.

Tradycyjne systemy percepcji zazwyczaj opierają się na sztywnych potokach (pipelines): zamrożony szkielet wizyjny generuje cechy, które następnie są łączone z tekstem w osobnym dekoderze. Falcon Perception zrywa z tym schematem na rzecz wczesnej fuzji (early-fusion). To pojedynczy, autoregresyjny Transformer, który przetwarza łaty obrazu (patches) i tokeny tekstowe w tej samej przestrzeni parametrów już od pierwszej warstwy. Dzięki takiemu podejściu model nie tylko "widzi" obiekty, ale od początku interpretuje je przez pryzmat dostarczonego promptu.

Architektura hybrydowa i mechanizm Chain-of-Perception

Sercem modelu jest unikalny schemat uwagi hybrydowej (hybrid attention mask). Rozwiązuje on fundamentalny problem: obrazy mają strukturę dwuwymiarową i wymagają kontekstu dwukierunkowego, podczas gdy przewidywanie tekstu i zadań jest z natury sekwencyjne. W Falcon Perception tokeny obrazu komunikują się ze sobą dwukierunkowo, budując globalny kontekst wizualny, natomiast tokeny tekstu i zadań podlegają maskowaniu kauzalnemu. Pozwala to modelowi zachowywać się jak enkoder wizyjny dla obrazu i jak model językowy dla instrukcji.

Zamiast kosztownej generacji masek piksel po pikselu, zastosowano interfejs Chain-of-Perception. Proces detekcji i segmentacji instancji został rozbity na trzy logiczne kroki:

  • <coord>: Przewidywanie centrum instancji, co pozwala modelowi "zakotwiczyć" się na konkretnym obiekcie.
  • <size>: Określenie zasięgu przestrzennego obiektu.
  • <seg>: Wygenerowanie pojedynczego embeddingu, który po operacji dot-product z upskalowanymi cechami obrazu tworzy maskę o pełnej rozdzielczości.
Przykład segmentacji modelu Falcon Perception
Model Falcon Perception generuje precyzyjne maski instancji na podstawie tekstowych promptów.

Precyzję lokalizacji wspierają wyspecjalizowane głowice (heads). Wykorzystują one kodowanie cech Fouriera (Fourier feature encoding), mapując ciągłe współrzędne na wysokowymiarową przestrzeń sinusoidalną. Pozwala to uniknąć tzw. błędu spektralnego sieci neuronowych i uzyskać dokładność wyższą niż w przypadku tradycyjnego dyskretnego binowania współrzędnych.

PBench: Diagnostyka zamiast prostych rankingów

Twórcy modelu słusznie zauważyli, że istniejące benchmarki, takie jak RefCOCO, stają się bezużyteczne przy wynikach przekraczających 90%. Nie pozwalają one zrozumieć, dlaczego model zawodzi. Odpowiedzią jest PBench – nowy zestaw testowy, który izoluje konkretne zdolności modelu na pięciu poziomach trudności (L0-L4) oraz w scenariuszach o wysokim zagęszczeniu obiektów (Dense).

Wyniki PBench ujawniają druzgocącą przewagę wczesnej fuzji w złożonych zadaniach. Podczas gdy na poziomie podstawowych obiektów (L0) różnica między Falcon Perception a SAM 3 jest minimalna, w zadaniach wymagających rozumienia relacji przestrzennych (L3) lub powiązań między obiektami (L4), przewaga Falcona wynosi odpowiednio 21.9 oraz 15.8 punktów procentowych. Model wykazuje się również niezwykłą odpornością na tłok – w teście Dense (setki instancji na obraz) uzyskał wynik 72.6, deklasując ogólne modele VLM, takie jak Qwen3-VL-30B.

Segmentacja burgera w wideo
Falcon Perception radzi sobie z segmentacją obiektów o specyficznych cechach, jak burger z czarną bułką, zachowując spójność w różnych klatkach.

Trening oparty na destylacji i ogromnej skali danych

Osiągnięcie tak wysokiej wydajności przy 600 milionach parametrów nie byłoby możliwe bez zaawansowanego procesu szkolenia. Model nie startował od zera – wykorzystano destylację od dwóch "nauczycieli": DINOv3 (ViT-H) dla detali lokalnych oraz SigLIP2 dla dopasowania językowego. Proces ten zapewnił solidny fundament wizualny (74.25% zero-shot na ImageNet-1k) przed etapem właściwego treningu percepcyjnego.

Zbiór danych treningowych robi wrażenie swoją skalą i jakością:

  • 54 miliony obrazów i 195 milionów pozytywnych wyrażeń.
  • 488 milionów twardych negatywów (hard negatives), co ma kluczowe znaczenie dla eliminacji halucynacji.
  • Zastosowanie optymalizatora Muon dla głowic specjalistycznych, co podniosło wyniki detekcji o 4.8 punktu na SA-Co.
  • Rygorystyczny proces weryfikacji: konsensus między modelami (SAM 3, Qwen3-VL-30B, Moondream3) oraz weryfikacja ludzka w spornych przypadkach.

Sam trening podzielono na trzy etapy: od inwentaryzacji sceny (Stage 1), przez dopasowanie do zadań z maskowaniem zapytań (Stage 2), aż po dostrajanie do długiego kontekstu (Stage 3), co pozwoliło modelowi obsługiwać do 600 zapytań na jedno wyrażenie.

Wydajność w liczbach i nowa jakość OCR

W benchmarku SA-Co, Falcon Perception osiągnął wynik 68.0 Macro-F1, znacząco wyprzedzając SAM 3 (62.3). Szczególnie imponujące są przyrosty w kategoriach trudnych semantycznie, jak atrybuty (+8.2) czy żywność i napoje (+12.2). Jedynym obszarem, w którym SAM 3 zachowuje przewagę, jest kalibracja obecności (MCC 0.82 vs 0.64), co sugeruje, że Falcon wciąż ma tendencję do nadmiarowego rysowania masek nawet przy braku obiektu.

Równolegle z głównym modelem, zespół zaprezentował Falcon OCR – kompaktowy model o parametrach 0.3B. Osiąga on wyniki 80.3 na olmOCR oraz 88.6 na OmniDocBench, oferując przy tym najwyższą przepustowość (throughput) wśród wszystkich dostępnych modeli OCR open source. To doskonałe uzupełnienie ekosystemu, pozwalające na błyskawiczną digitalizację dokumentów przy minimalnym zapotrzebowaniu na moc obliczeniową.

Falcon Perception udowadnia, że przyszłość precyzyjnej wizji komputerowej leży w zintegrowanych architekturach, które traktują obraz i tekst jako nierozerwalną całość. Sukces modelu w testach L2 (OCR-guided) i L3 (Spatial) pokazuje, że wczesna fuzja jest niezbędna, aby maszyny mogły wyjść poza proste rozpoznawanie kształtów i zaczęły rozumieć kontekstualne instrukcje. Można założyć, że podejście "Chain-of-Perception" stanie się nowym standardem dla lekkich, ale niezwykle sprawnych modeli brzegowych (edge AI), gdzie efektywność parametrów jest równie ważna, co precyzja maskowania.

Źródło: Hugging Face Blog
Udostępnij

Komentarze

Loading...