Sztuczna inteligencja5 min czytaniaArs Technica AI

Jak Anthropic badało „teoretyczne możliwości” AI na rynku pracy?

P
Redakcja Pixelift0 views
Udostępnij
Jak Anthropic badało „teoretyczne możliwości” AI na rynku pracy?

Foto: Getty Images

Nawet 80% zadań w sektorach takich jak prawo, finanse czy zarządzanie może zostać usprawnionych przez sztuczną inteligencję – tak wynika z głośnego raportu Anthropic, który wstrząsnął rynkiem pracy. Teoretyczne możliwości modeli LLM (Large Language Models) drastycznie przewyższają ich obecne, realne wykorzystanie, sugerując, że branże kreatywne (Arts & Media) oraz administracyjne (Office & Admin) stoją u progu fundamentalnej zmiany. Analiza opiera się na danych z opracowania „GPTs are GPTs” przygotowanego przez OpenAI i University of Pennsylvania. Badacze wykorzystali bazę O*NET, aby rozbić zawody na czynniki pierwsze i ocenić, czy AI może skrócić czas wykonywania poszczególnych czynności o co najmniej 50% przy zachowaniu tej samej jakości. Co istotne, prognozy te nie zakładają całkowitego zastąpienia ludzi, lecz skupiają się na wzroście produktywności poprzez „anticipated LLM-powered software”. Dla użytkowników i profesjonalistów oznacza to, że kluczową kompetencją stanie się umiejętność obsługi zaawansowanego oprogramowania zbudowanego na bazie modeli językowych. Choć liczby budzą niepokój, warto pamiętać, że opierają się one na subiektywnych ocenach ekspertów od AI, a nie na empirycznych testach w rzeczywistych warunkach biznesowych. Zamiast masowych zwolnień, czeka nas raczej ewolucja stanowisk pracy w stronę nadzoru nad procesami automatycznymi.

W debacie nad wpływem sztucznej inteligencji na gospodarkę pojawił się wykres, który błyskawicznie stał się wiralem w kręgach technologicznych. Raport firmy Anthropic zestawia na nim obecną „zaobserwowaną ekspozycję” (observed exposure) zawodów na modele LLM z ich „teoretycznymi możliwościami” (theoretical capability). Na pierwszy rzut oka dane te mrożą krew w żyłach: niebieskie pole sugeruje, że systemy oparte na dużych modelach językowych mogą teoretycznie wykonywać co najmniej 80 procent zadań w niemal wszystkich kluczowych kategoriach — od administracji i mediów, po prawo, finanse i zarządzanie.

Głębsza analiza metodologii stojącej za tymi liczbami ujawnia jednak obraz znacznie mniej dramatyczny, a bardziej spekulatywny. Okazuje się, że „teoretyczne możliwości”, którymi operuje Anthropic, nie wynikają z empirycznych testów najnowszych modeli, lecz z raportu z sierpnia 2023 roku zatytułowanego „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”. Dokument ten, współtworzony przez badaczy z OpenAI, OpenResearch oraz University of Pennsylvania, opiera się na szeregu założeń dotyczących przyszłego oprogramowania, które w momencie publikacji nie tylko nie istniało, ale do dziś pozostaje w sferze koncepcji.

Fundamenty zbudowane na domysłach i GPT-4

Metodologia badania, na które powołuje się Anthropic, opierała się na raportach O*NET Detailed Work Activity, które rozbijają poszczególne zawody na czynniki pierwsze — konkretne, granularne zadania. Zespół badawczy wykorzystał mieszankę ludzkiej adnotacji oraz asysty GPT-4, aby ocenić, czy ówczesny najpotężniejszy model OpenAI byłby w stanie skrócić czas potrzebny na wykonanie danego zadania o co najmniej 50 procent, zachowując przy tym „równoważną jakość”.

Kluczowym problemem jest jednak to, kto dokonywał tych ocen. Nie byli to specjaliści wykonujący dany zawód, ani nawet osoby z nim zaznajomione. Byli to eksperci od AI, którzy oceniali potencjał technologii w dziedzinach, o których — jak sami przyznali — mieli niewielkie pojęcie. Sami autorzy raportu wskazują na „subiektywność etykietowania” oraz „niejasną logikę agregowania zadań” jako fundamentalne ograniczenia swojego podejścia. W efekcie miara, która wygląda na obiektywny wskaźnik ekonomiczny, jest w rzeczywistości zbiorem edukowanych domysłów z połowy 2023 roku.

Mężczyzna pracujący przy komputerze z wizualizacją danych AI
Wizualizacja wpływu AI na rynek pracy często opiera się na teoretycznych modelach wydajności, a nie na rzeczywistych danych z wdrożeń.

Lista życzeń zamiast twardych danych

Rubryka używana przez badaczy do oceny „bezpośredniej ekspozycji” zadań na LLM zawierała listę czynności, w których modele językowe radziły sobie dobrze już rok temu. Wśród nich znalazły się:

  • Pisanie i transformacja kodu oraz tekstu według złożonych instrukcji.
  • Edycja istniejących treści zgodnie ze specyfikacją.
  • Tłumaczenie tekstów między językami.
  • Streszczanie dokumentów średniej długości.
  • Generowanie pytań do dokumentacji i udzielanie na nie odpowiedzi.

Choć lista ta trafnie oddaje ówczesne możliwości GPT-4, założenie, że model wykona te zadania o połowę szybciej z zachowaniem tej samej jakości, jest ryzykowne. Warto przywołać badanie z 2025 roku, które wykazało, że programiści korzystający z AI byli o 19 procent wolniejsi od tych pracujących tradycyjnie, gdy doliczono czas poświęcony na pisanie promptów i weryfikację błędnego kodu. Problem halucynacji i nadmiernej uległości (sycophancy) modeli LLM stawia pod ogromnym znakiem zapytania tezę o „równoważnej jakości” generowanych wyników.

Obietnica „przyszłego oprogramowania”

Najbardziej kontrowersyjnym elementem raportu, który wygenerował spektakularne słupki w grafice Anthropic, jest koncepcja „przewidywanego oprogramowania zasilanego przez LLM” (anticipated LLM-powered software). Przy restrykcyjnym podejściu badacze oszacowali, że tylko 15 procent zadań zawodowych mogłoby zostać usprawnionych o połowę przez ówczesne modele. Aby dojść do liczb rzędu 80-100 procent, musieli założyć powstanie nowej generacji narzędzi zbudowanych na bazie LLM.

Należy pamiętać o kontekście: sierpień 2023 roku był szczytem rynkowego hype'u. To wtedy Elon Musk wzywał do wstrzymania prac nad AI, Geoffrey Hinton odchodził z Google, ostrzegając przed utratą kontroli nad ludzkością, a Eliezer Yudkowsky sugerował naloty na centra danych w celu powstrzymania zbuntowanej inteligencji. W tej atmosferze eksperci dokonywali projekcji, nie nakładając na nie żadnych ram czasowych. „Nie tworzymy przewidywań dotyczących harmonogramu rozwoju lub adopcji takich modeli” — napisali autorzy, tworząc w ten sposób bezterminową prognozę, która może spełnić się równie dobrze za rok, jak i za dekadę.

Abstrakcyjna grafika przedstawiająca sieć neuronową i procesy myślowe
Teoretyczne możliwości AI zakładają bezproblemową integrację modeli językowych z codziennymi narzędziami pracy.

Automatyzacja zadań to nie zastąpienie pracownika

Przy najbardziej optymistycznym (lub pesymistycznym, zależnie od punktu widzenia) scenariuszu, badacze przewidują, że od 47 do 56 procent wszystkich zadań w gospodarce zostanie finalnie przyspieszonych o co najmniej 50 procent. W niektórych profesjach, takich jak matematycy, pisarze czy projektanci interfejsów cyfrowych, wskaźnik ten ma wynosić 100 procent.

Kluczowe jest jednak rozróżnienie, którego często brakuje w sensacyjnych nagłówkach: zwiększenie wydajności w konkretnym zadaniu nie jest równoznaczne z zastąpieniem człowieka. Narzędzie, które pozwala napisać artykuł lub kod dwa razy szybciej, czyni pracownika bardziej produktywnym, ale nie eliminuje potrzeby jego nadzoru, kreatywności i odpowiedzialności za efekt końcowy. Anthropic, cytując te dane, pokazuje potencjał transformacyjny technologii, ale opiera się na fundamentach, które wymagają jeszcze wielu lat weryfikacji w realnych warunkach rynkowych.

Zamiast rewolucji, która z dnia na dzień wymaże całe sektory gospodarki, dane te — po odcedzeniu z nich marketingowego entuzjazmu — sugerują raczej ewolucję narzędzi pracy. „Teoretyczne możliwości” pozostają jedynie matematyczną ekstrapolacją do czasu, aż oprogramowanie, na którym się opierają, faktycznie trafi do rąk użytkowników i udowodni swoją wartość w starciu z rzeczywistą złożonością ludzkich zawodów.

Źródło: Ars Technica AI
Udostępnij

Komentarze

Loading...