W świecie tworzenia oprogramowania przyzwyczailiśmy się, że ataki na łańcuch dostaw (supply chain attacks) wymagają skomplikowanego kodu, infekowania bibliotek lub przejmowania kont deweloperów. Najnowsze badania nad usługą Context Hub, uruchomioną przez pioniera AI Andrew Ng, dowodzą jednak, że w erze autonomicznych agentów kodujących wystarczy zwykły tekst. Zamiast pisać malware, napastnik może po prostu opublikować „zatrutą” dokumentację, którą sztuczna inteligencja bezkrytycznie zaimplementuje w projekcie.

Nowa architektura, stare błędy

Problem wyłonił się wraz z premierą Context Hub — serwisu mającego rozwiązać jeden z najbardziej irytujących problemów programistów korzystających z AI: halucynacje dotyczące parametrów API. Jak zauważył Andrew Ng, modele takie jak Claude Code często sięgają po przestarzałe metody, np. wywołując starsze chat completions API od OpenAI zamiast nowszego responses API (dostępnego w modelu GPT-5.2), mimo że to drugie jest na rynku od roku. Context Hub ma dostarczać agentom aktualną wiedzę poprzez serwer MCP (Model Context Protocol), działając jako pomost między dokumentacją a modelem.

Mechanizm działania serwisu opiera się na społeczności: deweloperzy przesyłają dokumentację jako GitHub pull requests (PR), a moderatorzy je zatwierdzają. To właśnie tutaj Mickey Shmueli, twórca konkurencyjnego serwisu lap.sh, dostrzegł krytyczną lukę. W swoim dowodzie koncepcji (Proof of Concept) wykazał, że cały proces cierpi na całkowity brak sanityzacji treści (content sanitization). Jeśli złośliwa instrukcja lub fałszywa zależność trafi do dokumentacji, agent AI potraktuje ją jako prawdę objawioną.

Zatruta dokumentacja zamiast wirusa

Atak typu PoC przeprowadzony przez Shmueliego jest uderzająco prosty. Zamiast liczyć na to, że model sam z siebie zmyśli nazwę pakietu (co zdarza się regularnie), napastnik podsuwa mu tę nazwę w oficjalnie wyglądającej dokumentacji. W teście przygotowano sfałszowane instrukcje dla Plaid Link oraz Stripe Checkout, zawierające nieistniejące, potencjalnie złośliwe pakiety PyPI. Agent AI, czytając taką dokumentację, automatycznie dopisuje te biblioteki do pliku requirements.txt projektu.

Dane statystyczne z repozytorium Context Hub budzą niepokój co do skuteczności moderacji. Spośród 97 zamkniętych zgłoszeń PR, aż 58 zostało zaakceptowanych i scalonych z główną bazą. Shmueli wskazuje, że proces recenzji wydaje się faworyzować ilość dokumentacji nad jej bezpieczeństwem. W kodzie repozytorium nie znaleziono śladów automatycznego skanowania pod kątem instrukcji wykonywalnych czy podejrzanych referencji do pakietów. Efekt? Agent pobiera dane, czyta zatrutą treść i buduje projekt, generując czysty kod bez żadnych ostrzeżeń.

Odporność modeli: Wyścig zbrojeń Anthropica

Interesujące są wyniki testów przeprowadzonych na różnych modelach rodziny Anthropic. Shmueli sprawdził, jak poszczególne wersje radzą sobie z wykrywaniem sfałszowanych zależności w dokumentacji:

Haiku: Najsłabszy wynik. W 40 na 40 prób (100%) bezkrytycznie wpisał złośliwy pakiet do pliku konfiguracyjnego, ani razu nie zgłaszając wątpliwości.
Sonnet: Wykazał umiarkowaną czujność. Wydał ostrzeżenia w 48% przypadków (19/40), ale wciąż w 53% prób (21/40) zaimplementował fałszywą bibliotekę.
Opus: Najwyższy model okazał się najbardziej odporny. Wydał ostrzeżenia w 75% testów (30/40) i ostatecznie nie dopuścił do zainfekowania kodu ani pliku requirements.txt.

Zdolność Opus do wykrycia anomalii wynika z faktu, że jest on trenowany na większej liczbie pakietów i wykazuje wyższy stopień sofistykacji w analizie kontekstu. Niemniej jednak, fakt, że nawet zaawansowane modele dają się zwieść w niemal połowie przypadków (jak Sonnet), pokazuje, że poleganie wyłącznie na inteligencji modelu jest strategią ryzykowną.

Problem, którego nie da się łatwo naprawić

Sytuacja z Context Hub to w rzeczywistości nowa odsłona znanego problemu indirect prompt injection. Modele językowe z natury nie potrafią skutecznie odróżnić danych (dokumentacji) od instrukcji systemowych. Gdy agent AI otrzymuje dostęp do zewnętrznych źródeł wiedzy, każda linijka tekstu może stać się poleceniem. Shmueli podkreśla, że problem nie dotyczy tylko serwisu Andrew Ng — praktycznie wszystkie obecne systemy udostępniające dokumentację tworzoną przez społeczność dla AI zawodzą w kwestii weryfikacji treści.

"Agent pobiera dokumentację, czyta zatrutą treść i buduje projekt. Odpowiedź wygląda całkowicie normalnie. Działający kod. Czyste instrukcje. Brak ostrzeżeń." – Mickey Shmueli, twórca lap.sh.

W obecnym ekosystemie, gdzie szybkość wdrażania nowych narzędzi AI wygrywa z rygorystycznymi audytami bezpieczeństwa, deweloperzy stają przed nowym wyzwaniem. Tradycyjne narzędzia typu SCA (Software Composition Analysis) mogą nie wykryć zagrożenia, ponieważ dla nich złośliwy pakiet wygląda jak każda inna, nowa zależność dodana przez programistę — w tym przypadku, programistę w postaci algorytmu.

Koniec ery bezkrytycznego zaufania

Incydent z Context Hub powinien być sygnałem ostrzegawczym dla całej branży. Architektura, w której agent AI ma bezpośrednie wyjście do sieci i uprawnienia do modyfikowania plików konfiguracyjnych, przy jednoczesnym zasilaniu go niezweryfikowanymi danymi z zewnątrz, jest fundamentalnie wadliwa. To klasyczny przykład "lethal trifecta" — modelu zagrożeń opisanego przez Simona Willisona, gdzie łączą się: dostęp do danych prywatnych, dostęp do sieci i brak weryfikacji instrukcji.

Można założyć, że w najbliższym czasie standardem stanie się izolowanie agentów kodujących w środowiskach typu sandbox bez dostępu do sieci zewnętrznej lub wymuszanie korzystania wyłącznie z lokalnych, podpisanych cyfrowo baz dokumentacji. Dopóki systemy AI nie nauczą się separować warstwy danych od warstwy kontrolnej, każda publiczna biblioteka wiedzy pozostanie potencjalnym wektorem ataku. Bezpieczeństwo łańcucha dostaw w dobie AI nie zależy już od tego, co haker wpisze w kodzie, ale od tego, co przeczyta maszyna.

Ataki na łańcuch dostaw AI nie wymagają malware – wystarczy zainfekowana dokumentacja

Nowa architektura, stare błędy

Czytaj też

Zatruta dokumentacja zamiast wirusa

Odporność modeli: Wyścig zbrojeń Anthropica

Problem, którego nie da się łatwo naprawić

Koniec ery bezkrytycznego zaufania

Więcej z kategorii Branża

Broadcom rozszerza współpracę z Google oraz Anthropic w zakresie dostaw chipów

OpenAI prosi organy w California i Delaware o zbadanie „antykonkurencyjnych zachowań” Muska przed kwietniowym procesem

Nadzieja na układ USA-Iran, rocznica Apple i OpenAI w Morning Squawk

Boom centrów danych AI wystawia ubezpieczycieli na próbę przy napływie prywatnego kapitału

Podobne artykuły

Ryzykowny i niezwykle ambitny plan Intel, który może przynieść miliardy zysku

Badacze nie chcieli gloryfikować cyberprzestępców, więc postanowili ich wyśmiać

Agenci AI obiecują „prowadzenie biznesu”, ale kto odpowie za ich błędy?

Netflix, Meta i IBM: AI zrobi z każdego programistę 10x, ale z dziesięciokrotnie większym bałaganem

Komentarze