Wyobraź sobie, że szukasz idealnego telewizora, najlepszych słuchawek z redukcją szumu lub laptopa, który przetrwa lata intensywnej pracy. Zamiast przekopywać się przez dziesiątki recenzji, zadajesz proste pytanie ChatGPT: „Co poleca redakcja WIRED?”. Odpowiedź pojawia się w sekundę, brzmi profesjonalnie i wiarygodnie. Problem w tym, że jest niemal całkowicie zmyślona. Eksperyment przeprowadzony przez recenzentów WIRED obnażył bolesną prawdę o tym, jak modele językowe radzą sobie z kuratelą treści i rzetelnym doradztwem zakupowym.

Halucynacje zamiast rzetelnych testów

Kiedy testerzy WIRED postanowili sprawdzić, co ChatGPT przypisuje ich własnej marce, wyniki okazały się alarmujące. Bot, zamiast przeszukać aktualne bazy danych i podać produkty, które faktycznie przeszły rygorystyczne testy laboratoryjne, zaczął generować listy pełne błędów. W wielu przypadkach chatbot wskazywał urządzenia, których redakcja nigdy nie rekomendowała, lub – co gorsza – takie, które w oficjalnych recenzjach otrzymały niskie noty.

Zjawisko to, znane w branży jako halucynacje AI, nabiera szczególnego znaczenia w kontekście zakupów. Użytkownik, ufając autorytetowi znanej marki technologicznej, może wydać tysiące dolarów na sprzęt, który w rzeczywistości nie spełnia standardów jakości. ChatGPT nie tylko mylił konkretne modele, ale potrafił przypisać recenzentom opinie, których nigdy nie wyrazili, tworząc iluzję eksperckiej wiedzy tam, gdzie znajduje się jedynie statystyczne prawdopodobieństwo wystąpienia kolejnych słów.

Dlaczego sztuczna inteligencja zawodzi w doradztwie?

Problem leży u podstaw działania dużych modeli językowych (LLM). OpenAI trenuje swoje systemy na gigantycznych zbiorach danych, które są statycznym wycinkiem internetu z konkretnego momentu. Choć nowsze wersje mają dostęp do sieci, proces syntezy informacji wciąż kuleje. Oto główne powody, dla których rekomendacje AI są zawodne:

Brak rozróżnienia między opinią a faktem: AI miesza treści sponsorowane, komentarze na forach i oficjalne werdykty redakcyjne.
Problemy z aktualnością: Rynek elektroniki użytkowej zmienia się z tygodnia na tydzień; chatboty często promują modele wycofane ze sprzedaży.
Atrybucja na oślep: Systemy te mają tendencję do "zgadywania", co dana redakcja mogłaby polecić, opierając się na ogólnej popularności produktu, a nie na treści konkretnego artykułu.
Ignorowanie kontekstu testów: AI nie rozumie, dlaczego dany laptop wygrał w kategorii "dla studenta", a przegrał w "dla montażysty wideo".

Ekran z błędnymi odpowiedziami chatbota na temat testów sprzętu — Analiza odpowiedzi AI wykazuje rażące rozbieżności z faktycznymi wynikami testów redakcyjnych.

Zagrożenie dla autorytetu mediów technologicznych

Dla serwisów takich jak WIRED czy nasz portal Pixelift, zaufanie czytelnika jest najcenniejszą walutą. Buduje się je latami poprzez rzetelne testy, rozbieranie urządzeń na części i sprawdzanie ich w ekstremalnych warunkach. Gdy ChatGPT błędnie podaje, że dany produkt jest "wyborem redakcji", uderza to bezpośrednio w wiarygodność dziennikarzy. Czytelnik, który zawiedzie się na zakupie sugerowanym przez AI "w imieniu" znanej marki, może już nigdy do niej nie wrócić.

Sytuacja ta pokazuje również niebezpieczny trend w ekosystemie wyszukiwarek. W dobie SGE (Search Generative Experience), gdzie odpowiedzi generowane przez AI pojawiają się nad wynikami wyszukiwania, użytkownicy rzadziej klikają w linki źródłowe. Otrzymują gotową, często błędną papkę informacyjną, która odcina ich od pogłębionej analizy i kontekstu, jaki oferuje tylko człowiek-ekspert.

"Chcesz wiedzieć, co nasi recenzenci faktycznie przetestowali i wybrali jako najlepsze telewizory, słuchawki i laptopy? Zapytaj ChatGPT, a poda ci błędne odpowiedzi" – podsumowuje redakcja WIRED.

Konieczność powrotu do źródeł

W dobie zalewu treści generowanych maszynowo, rola kuratora treści staje się ważniejsza niż kiedykolwiek. Choć ChatGPT jest genialnym narzędziem do programowania czy burzy mózgów, w kwestii wydawania pieniędzy na sprzęt technologiczny pozostaje kiepskim doradcą. Weryfikacja informacji u źródła, np. bezpośrednio na stronach takich jak WIRED, jest obecnie jedynym sposobem na uniknięcie kosztownych pomyłek.

Można założyć, że dopóki modele AI nie zaczną traktować autorytetu konkretnych źródeł z należytą wagą, będziemy świadkami postępującej degradacji jakości informacji w sieci. Technologia RAG (Retrieval-Augmented Generation), która ma łączyć generowanie tekstu z przeszukiwaniem wiarygodnych baz danych, jest krokiem w dobrą stronę, ale eksperyment z rekomendacjami sprzętowymi pokazuje, że wciąż jesteśmy daleko od ideału. W świecie technologii kreatywnych i profesjonalnego sprzętu, ludzkie doświadczenie i subiektywna, ale poparta testami ocena, wciąż wygrywają z algorytmem.

Zapytałem ChatGPT o rekomendacje recenzentów WIRED – wszystkie odpowiedzi były błędne

Halucynacje zamiast rzetelnych testów

Czytaj też

Dlaczego sztuczna inteligencja zawodzi w doradztwie?

Zagrożenie dla autorytetu mediów technologicznych

Konieczność powrotu do źródeł

Więcej z kategorii Branża

Broadcom rozszerza współpracę z Google oraz Anthropic w zakresie dostaw chipów

OpenAI prosi organy w California i Delaware o zbadanie „antykonkurencyjnych zachowań” Muska przed kwietniowym procesem

Nadzieja na układ USA-Iran, rocznica Apple i OpenAI w Morning Squawk

Boom centrów danych AI wystawia ubezpieczycieli na próbę przy napływie prywatnego kapitału

Podobne artykuły

Ryzykowny i niezwykle ambitny plan Intel, który może przynieść miliardy zysku

Badacze nie chcieli gloryfikować cyberprzestępców, więc postanowili ich wyśmiać

Agenci AI obiecują „prowadzenie biznesu”, ale kto odpowie za ich błędy?

Netflix, Meta i IBM: AI zrobi z każdego programistę 10x, ale z dziesięciokrotnie większym bałaganem

Komentarze