Branża4 min czytaniaWired AI

Zapytałem ChatGPT o rekomendacje recenzentów WIRED – wszystkie odpowiedzi były błędne

P
Redakcja Pixelift0 views
Udostępnij
Zapytałem ChatGPT o rekomendacje recenzentów WIRED – wszystkie odpowiedzi były błędne

Foto: Wired AI

ChatGPT podaje nieprawdziwe informacje w 100% przypadków, gdy pytamy go o konkretne rekomendacje produktowe prestiżowego magazynu WIRED. Choć model językowy OpenAI posiada dostęp do sieci poprzez funkcję Search, testy przeprowadzone przez redakcję wykazały, że bot systematycznie „halucynuje”, przypisując recenzentom polecenia sprzętów, których ci nigdy nie testowali lub które ocenili negatywnie. W trakcie eksperymentu ChatGPT zasugerował m.in. zakup konkretnego modelu plecaka i słuchawek, twierdząc, że są to „wybory redakcji”, podczas gdy w rzeczywistości oficjalne zestawienia WIRED wskazywały zupełnie inne marki. Problem ten nie wynika z braku danych, lecz z mechanizmu działania Large Language Models, które priorytetyzują generowanie płynnej odpowiedzi nad jej faktyczną poprawność. Dla użytkowników szukających rzetelnych porad zakupowych to jasny sygnał ostrzegawczy: AI wciąż nie jest godnym zaufania źródłem informacji w kwestiach wymagających precyzyjnego cytowania źródeł. Zjawisko to podkopuje zaufanie do narzędzi typu AI Search, które mają ambicję zastąpić tradycyjne wyszukiwarki. Zamiast ułatwiać research, technologia ta zmusza odbiorców do podwójnej weryfikacji każdego wyniku, co stawia pod znakiem zapytania jej użyteczność w procesie podejmowania decyzji konsumenckich. Poleganie na algorytmach bez sprawdzenia pierwotnego źródła może dziś prowadzić do kosztownych błędów zakupowych.

Wyobraź sobie, że szukasz idealnego telewizora, najlepszych słuchawek z redukcją szumu lub laptopa, który przetrwa lata intensywnej pracy. Zamiast przekopywać się przez dziesiątki recenzji, zadajesz proste pytanie ChatGPT: „Co poleca redakcja WIRED?”. Odpowiedź pojawia się w sekundę, brzmi profesjonalnie i wiarygodnie. Problem w tym, że jest niemal całkowicie zmyślona. Eksperyment przeprowadzony przez recenzentów WIRED obnażył bolesną prawdę o tym, jak modele językowe radzą sobie z kuratelą treści i rzetelnym doradztwem zakupowym.

Halucynacje zamiast rzetelnych testów

Kiedy testerzy WIRED postanowili sprawdzić, co ChatGPT przypisuje ich własnej marce, wyniki okazały się alarmujące. Bot, zamiast przeszukać aktualne bazy danych i podać produkty, które faktycznie przeszły rygorystyczne testy laboratoryjne, zaczął generować listy pełne błędów. W wielu przypadkach chatbot wskazywał urządzenia, których redakcja nigdy nie rekomendowała, lub – co gorsza – takie, które w oficjalnych recenzjach otrzymały niskie noty.

Zjawisko to, znane w branży jako halucynacje AI, nabiera szczególnego znaczenia w kontekście zakupów. Użytkownik, ufając autorytetowi znanej marki technologicznej, może wydać tysiące dolarów na sprzęt, który w rzeczywistości nie spełnia standardów jakości. ChatGPT nie tylko mylił konkretne modele, ale potrafił przypisać recenzentom opinie, których nigdy nie wyrazili, tworząc iluzję eksperckiej wiedzy tam, gdzie znajduje się jedynie statystyczne prawdopodobieństwo wystąpienia kolejnych słów.

Dlaczego sztuczna inteligencja zawodzi w doradztwie?

Problem leży u podstaw działania dużych modeli językowych (LLM). OpenAI trenuje swoje systemy na gigantycznych zbiorach danych, które są statycznym wycinkiem internetu z konkretnego momentu. Choć nowsze wersje mają dostęp do sieci, proces syntezy informacji wciąż kuleje. Oto główne powody, dla których rekomendacje AI są zawodne:

  • Brak rozróżnienia między opinią a faktem: AI miesza treści sponsorowane, komentarze na forach i oficjalne werdykty redakcyjne.
  • Problemy z aktualnością: Rynek elektroniki użytkowej zmienia się z tygodnia na tydzień; chatboty często promują modele wycofane ze sprzedaży.
  • Atrybucja na oślep: Systemy te mają tendencję do "zgadywania", co dana redakcja mogłaby polecić, opierając się na ogólnej popularności produktu, a nie na treści konkretnego artykułu.
  • Ignorowanie kontekstu testów: AI nie rozumie, dlaczego dany laptop wygrał w kategorii "dla studenta", a przegrał w "dla montażysty wideo".
Ekran z błędnymi odpowiedziami chatbota na temat testów sprzętu
Analiza odpowiedzi AI wykazuje rażące rozbieżności z faktycznymi wynikami testów redakcyjnych.

Zagrożenie dla autorytetu mediów technologicznych

Dla serwisów takich jak WIRED czy nasz portal Pixelift, zaufanie czytelnika jest najcenniejszą walutą. Buduje się je latami poprzez rzetelne testy, rozbieranie urządzeń na części i sprawdzanie ich w ekstremalnych warunkach. Gdy ChatGPT błędnie podaje, że dany produkt jest "wyborem redakcji", uderza to bezpośrednio w wiarygodność dziennikarzy. Czytelnik, który zawiedzie się na zakupie sugerowanym przez AI "w imieniu" znanej marki, może już nigdy do niej nie wrócić.

Sytuacja ta pokazuje również niebezpieczny trend w ekosystemie wyszukiwarek. W dobie SGE (Search Generative Experience), gdzie odpowiedzi generowane przez AI pojawiają się nad wynikami wyszukiwania, użytkownicy rzadziej klikają w linki źródłowe. Otrzymują gotową, często błędną papkę informacyjną, która odcina ich od pogłębionej analizy i kontekstu, jaki oferuje tylko człowiek-ekspert.

"Chcesz wiedzieć, co nasi recenzenci faktycznie przetestowali i wybrali jako najlepsze telewizory, słuchawki i laptopy? Zapytaj ChatGPT, a poda ci błędne odpowiedzi" – podsumowuje redakcja WIRED.

Konieczność powrotu do źródeł

W dobie zalewu treści generowanych maszynowo, rola kuratora treści staje się ważniejsza niż kiedykolwiek. Choć ChatGPT jest genialnym narzędziem do programowania czy burzy mózgów, w kwestii wydawania pieniędzy na sprzęt technologiczny pozostaje kiepskim doradcą. Weryfikacja informacji u źródła, np. bezpośrednio na stronach takich jak WIRED, jest obecnie jedynym sposobem na uniknięcie kosztownych pomyłek.

Można założyć, że dopóki modele AI nie zaczną traktować autorytetu konkretnych źródeł z należytą wagą, będziemy świadkami postępującej degradacji jakości informacji w sieci. Technologia RAG (Retrieval-Augmented Generation), która ma łączyć generowanie tekstu z przeszukiwaniem wiarygodnych baz danych, jest krokiem w dobrą stronę, ale eksperyment z rekomendacjami sprzętowymi pokazuje, że wciąż jesteśmy daleko od ideału. W świecie technologii kreatywnych i profesjonalnego sprzętu, ludzkie doświadczenie i subiektywna, ale poparta testami ocena, wciąż wygrywają z algorytmem.

Źródło: Wired AI
Udostępnij

Komentarze

Loading...