Tradycyjne systemy percepcji zazwyczaj opierają się na sztywnych potokach (pipelines): zamrożony szkielet wizyjny generuje cechy, które następnie są łączone z tekstem w osobnym dekoderze. Falcon Perception zrywa z tym schematem na rzecz wczesnej fuzji (early-fusion). To pojedynczy, autoregresyjny Transformer, który przetwarza łaty obrazu (patches) i tokeny tekstowe w tej samej przestrzeni parametrów już od pierwszej warstwy. Dzięki takiemu podejściu model nie tylko "widzi" obiekty, ale od początku interpretuje je przez pryzmat dostarczonego promptu.

Architektura hybrydowa i mechanizm Chain-of-Perception

Sercem modelu jest unikalny schemat uwagi hybrydowej (hybrid attention mask). Rozwiązuje on fundamentalny problem: obrazy mają strukturę dwuwymiarową i wymagają kontekstu dwukierunkowego, podczas gdy przewidywanie tekstu i zadań jest z natury sekwencyjne. W Falcon Perception tokeny obrazu komunikują się ze sobą dwukierunkowo, budując globalny kontekst wizualny, natomiast tokeny tekstu i zadań podlegają maskowaniu kauzalnemu. Pozwala to modelowi zachowywać się jak enkoder wizyjny dla obrazu i jak model językowy dla instrukcji.

Zamiast kosztownej generacji masek piksel po pikselu, zastosowano interfejs Chain-of-Perception. Proces detekcji i segmentacji instancji został rozbity na trzy logiczne kroki:

<coord>: Przewidywanie centrum instancji, co pozwala modelowi "zakotwiczyć" się na konkretnym obiekcie.
<size>: Określenie zasięgu przestrzennego obiektu.
<seg>: Wygenerowanie pojedynczego embeddingu, który po operacji dot-product z upskalowanymi cechami obrazu tworzy maskę o pełnej rozdzielczości.

Przykład segmentacji modelu Falcon Perception — Model Falcon Perception generuje precyzyjne maski instancji na podstawie tekstowych promptów.

Precyzję lokalizacji wspierają wyspecjalizowane głowice (heads). Wykorzystują one kodowanie cech Fouriera (Fourier feature encoding), mapując ciągłe współrzędne na wysokowymiarową przestrzeń sinusoidalną. Pozwala to uniknąć tzw. błędu spektralnego sieci neuronowych i uzyskać dokładność wyższą niż w przypadku tradycyjnego dyskretnego binowania współrzędnych.

PBench: Diagnostyka zamiast prostych rankingów

Twórcy modelu słusznie zauważyli, że istniejące benchmarki, takie jak RefCOCO, stają się bezużyteczne przy wynikach przekraczających 90%. Nie pozwalają one zrozumieć, dlaczego model zawodzi. Odpowiedzią jest PBench – nowy zestaw testowy, który izoluje konkretne zdolności modelu na pięciu poziomach trudności (L0-L4) oraz w scenariuszach o wysokim zagęszczeniu obiektów (Dense).

Wyniki PBench ujawniają druzgocącą przewagę wczesnej fuzji w złożonych zadaniach. Podczas gdy na poziomie podstawowych obiektów (L0) różnica między Falcon Perception a SAM 3 jest minimalna, w zadaniach wymagających rozumienia relacji przestrzennych (L3) lub powiązań między obiektami (L4), przewaga Falcona wynosi odpowiednio 21.9 oraz 15.8 punktów procentowych. Model wykazuje się również niezwykłą odpornością na tłok – w teście Dense (setki instancji na obraz) uzyskał wynik 72.6, deklasując ogólne modele VLM, takie jak Qwen3-VL-30B.

Segmentacja burgera w wideo — Falcon Perception radzi sobie z segmentacją obiektów o specyficznych cechach, jak burger z czarną bułką, zachowując spójność w różnych klatkach.

Trening oparty na destylacji i ogromnej skali danych

Osiągnięcie tak wysokiej wydajności przy 600 milionach parametrów nie byłoby możliwe bez zaawansowanego procesu szkolenia. Model nie startował od zera – wykorzystano destylację od dwóch "nauczycieli": DINOv3 (ViT-H) dla detali lokalnych oraz SigLIP2 dla dopasowania językowego. Proces ten zapewnił solidny fundament wizualny (74.25% zero-shot na ImageNet-1k) przed etapem właściwego treningu percepcyjnego.

Zbiór danych treningowych robi wrażenie swoją skalą i jakością:

54 miliony obrazów i 195 milionów pozytywnych wyrażeń.
488 milionów twardych negatywów (hard negatives), co ma kluczowe znaczenie dla eliminacji halucynacji.
Zastosowanie optymalizatora Muon dla głowic specjalistycznych, co podniosło wyniki detekcji o 4.8 punktu na SA-Co.
Rygorystyczny proces weryfikacji: konsensus między modelami (SAM 3, Qwen3-VL-30B, Moondream3) oraz weryfikacja ludzka w spornych przypadkach.

Sam trening podzielono na trzy etapy: od inwentaryzacji sceny (Stage 1), przez dopasowanie do zadań z maskowaniem zapytań (Stage 2), aż po dostrajanie do długiego kontekstu (Stage 3), co pozwoliło modelowi obsługiwać do 600 zapytań na jedno wyrażenie.

Wydajność w liczbach i nowa jakość OCR

W benchmarku SA-Co, Falcon Perception osiągnął wynik 68.0 Macro-F1, znacząco wyprzedzając SAM 3 (62.3). Szczególnie imponujące są przyrosty w kategoriach trudnych semantycznie, jak atrybuty (+8.2) czy żywność i napoje (+12.2). Jedynym obszarem, w którym SAM 3 zachowuje przewagę, jest kalibracja obecności (MCC 0.82 vs 0.64), co sugeruje, że Falcon wciąż ma tendencję do nadmiarowego rysowania masek nawet przy braku obiektu.

Równolegle z głównym modelem, zespół zaprezentował Falcon OCR – kompaktowy model o parametrach 0.3B. Osiąga on wyniki 80.3 na olmOCR oraz 88.6 na OmniDocBench, oferując przy tym najwyższą przepustowość (throughput) wśród wszystkich dostępnych modeli OCR open source. To doskonałe uzupełnienie ekosystemu, pozwalające na błyskawiczną digitalizację dokumentów przy minimalnym zapotrzebowaniu na moc obliczeniową.

Falcon Perception udowadnia, że przyszłość precyzyjnej wizji komputerowej leży w zintegrowanych architekturach, które traktują obraz i tekst jako nierozerwalną całość. Sukces modelu w testach L2 (OCR-guided) i L3 (Spatial) pokazuje, że wczesna fuzja jest niezbędna, aby maszyny mogły wyjść poza proste rozpoznawanie kształtów i zaczęły rozumieć kontekstualne instrukcje. Można założyć, że podejście "Chain-of-Perception" stanie się nowym standardem dla lekkich, ale niezwykle sprawnych modeli brzegowych (edge AI), gdzie efektywność parametrów jest równie ważna, co precyzja maskowania.

Falcon Perception – nowy model AI od TII do analizy obrazu i wideo

Architektura hybrydowa i mechanizm Chain-of-Perception

Czytaj też

PBench: Diagnostyka zamiast prostych rankingów

Trening oparty na destylacji i ogromnej skali danych

Wydajność w liczbach i nowa jakość OCR

Więcej z kategorii Modele

Zbuduj model osadzania specjalistyczny w mniej niż dzień

Nemotron 3 Content Safety 4B: Wielomodalna, wielojęzyczna moderacja treści

Co nowego w Mellea 0.4.0 + wydanie bibliotek Granite

Przedstawiamy SPEED-Bench: Ujednolicony i różnorodny benchmark dla dekodowania spekulacyjnego

Podobne artykuły

Granite 4.0 3B Vision: Kompaktowa multimodalna AI do dokumentów biznesowych

TRL v1.0: Biblioteka do post-trainingu, która przetrwa zmiany paradygmatów w branży AI

Uwolnij swój OpenClaw – nowe możliwości narzędzia

EVA: Nowy standard oceny asystentów głosowych Voice Agents

Komentarze

Falcon Perception – nowy model AI od TII do analizy obrazu i wideo

Architektura hybrydowa i mechanizm Chain-of-Perception

Czytaj też

PBench: Diagnostyka zamiast prostych rankingów

Trening oparty na destylacji i ogromnej skali danych

Wydajność w liczbach i nowa jakość OCR

Więcej z kategorii Modele

Zbuduj model osadzania specjalistyczny w mniej niż dzień

Nemotron 3 Content Safety 4B: Wielomodalna, wielojęzyczna moderacja treści

Co nowego w Mellea 0.4.0 + wydanie bibliotek Granite

**Przedstawiamy SPEED-Bench: Ujednolicony i różnorodny benchmark dla dekodowania spekulacyjnego**

Podobne artykuły

Granite 4.0 3B Vision: Kompaktowa multimodalna AI do dokumentów biznesowych

TRL v1.0: Biblioteka do post-trainingu, która przetrwa zmiany paradygmatów w branży AI

Uwolnij swój OpenClaw – nowe możliwości narzędzia

EVA: Nowy standard oceny asystentów głosowych Voice Agents

Komentarze

Przedstawiamy SPEED-Bench: Ujednolicony i różnorodny benchmark dla dekodowania spekulacyjnego