Arena, czyli platforma, która niedawno była zaledwie akademickim projektem, stała się arbitrem w wojnie o to, kto ma najlepszy model AI. Siedem miesięcy — tyle czasu zajęło startupowi przejście z cichej egzystencji w laboratoriach UC Berkeley do pozycji, w której jej rankingi decydują o milionach dolarów wycen, harmonogramach premier produktów i narracjach PR największych firm technologicznych. To fascynujące, bo pokazuje, jak szybko nowe struktury władzy mogą się ukonstytuować w branży, która sama zmieniła się z gruntu w zaledwie kilka lat.

Ale tu pojawia się problem, i to poważny. Arena nie jest niezależnym arbitrem, którego moglibyśmy sobie wyobrazić. Jej inwestorami są dokładnie te same firmy, które ona ocenia — OpenAI, Anthropic, Google i inne gigantów AI. To sytuacja, którą można by nazwać konflikt interesów na skalę przemysłową. Jak można ufać leaderboardowi, który twierdzi, że nie da się go "zhackować", jeśli finansują go gracze, których pozycje na tym leaderboardzie bezpośrednio wpływają na ich przychody, wyceny i strategiczne decyzje?

Historia Arena to przede wszystkim opowieść o tym, jak mały projekt akademicki stał się narzędziem władzy w ekosystemie AI. Równocześnie to również historia o tym, jak branża próbuje rozwiązać fundamentalny problem: jak porównać modele, które są coraz bardziej zaawansowane i coraz trudniejsze do obiektywnego oceniania? Odpowiedź, którą dostaliśmy, jest niepokojąca — pozwoliła na to platforma finansowana przez tych, których ocenia.

Od akademickiego projektu do arbitera branży

Arena zaczęła się jako typowy projekt akademicki — zespół badaczy z UC Berkeley pracował nad systemem porównywania modeli językowych. Ideą było stworzenie czegoś, co mogłoby działać jak Elo rating w szachach, ale dla AI. Użytkownicy mogliby porównywać odpowiedzi różnych modeli na te same pytania, a system automatycznie przeliczałby rankingi na podstawie wyników tych porównań. Eleganckie, proste, pozornie obiektywne.

Problem pojawił się, gdy projekt zaczął przyciągać uwagę. Firmy technologiczne zauważyły, że ta platforma może być dla nich naprawdę ważna — że pozycja na leaderboardzie Arena może wpłynąć na to, czy inwestorzy będą zainteresowani ich modelem, czy media będą o nich pisać, czy startupowe zespoły będą chciały na ich infrastrukturze budować. W momencie, gdy zdano sobie z tego sprawę, Arena z ciekawostki akademickiej stała się zasobem strategicznym.

Startup szybko się sformalizował i zaczął zbierać finansowanie. A tutaj pojawia się ta ironia — jego inwestorami zostały dokładnie te firmy, które wiedziały, jak ważna będzie ta platforma. OpenAI, Anthropic, Google, a także fundusze venture capital zainteresowane ekosystemem AI — wszyscy mieli udział w Arena. To było jak gdyby wszystkie zespoły w lidze piłkarskiej razem kupiły telewizję, która transmituje mecze i decyduje o rankingach.

Mechanika leaderboardu, która wydaje się neutralna, ale nie jest

System rankingowy Arena rzeczywiście wygląda inteligentnie zaprojektowany. Użytkownicy porównują odpowiedzi dwóch modeli na to samo pytanie i wybierają, która jest lepsza. System przelicza to na coś zbliżonego do algorytmu Elo — im więcej porównań, tym bardziej stabilna pozycja modelu na leaderboardzie. Teoretycznie, jeśli system jest naprawdę używany przez tysiące ludzi, robi się on trudny do manipulacji, bo trzeba byłoby zmobilizować ogromną liczbę osób, żeby zniekształcić wyniki.

Ale tu pojawia się pierwsza warstwa problemu: kto decyduje, jakie pytania są zadawane? Jeśli Arena pozwala firmom lub ich pracownikom sugerować pytania, które trafiają do użytkowników, to już mamy manipulację. Pytanie sformułowane w konkretny sposób może faworyzować konkretny model — na przykład pytanie, które wymaga szczególnego rodzaju kreatywności, może być lepsze dla modelu, który właśnie to umie robić dobrze.

Druga warstwa: kto stanowi użytkowniczą bazę Arena? Jeśli platformą posługują się przede wszystkim pracownicy firm technologicznych, ich przyjaciele lub osoby zainteresowane AI, to ich preferencje mogą być systematycznie odchylone. Może się okazać, że konkretny model jest preferowany przez tę grupę, ale mniej przez ogółem społeczeństwa. Leaderboard byłby wtedy odzwierciedleniem preferencji wąskiej grupy, a nie rzeczywistej jakości.

Trzecia warstwa, najgorsza: stymulacja popytu na własny produkt. Jeśli pracownicy firmy, która zainwestowała w Arenę, będą zachęcani do korzystania z platformy i porównywania modeli, mogą (świadomie lub nie) faworyzować model, który ich firma sponsoruje. To nie musi być celowe — może to być po prostu bias poznawczy, gdzie ludzie podświadomie preferują to, co im jest bliskie.

Konflikt interesów napisany wielkimi literami

Najciekawsze jest to, że Arena sama twierdzi, że nie da się jej "zhackować" — że jej system jest na tyle odporny na manipulacje, że można mu ufać. To jest oświadczenie, które można by nazwać nienaiwnym, gdyby nie fakt, że jest ono strategicznie korzystne dla inwestorów platformy. Jeśli wszyscy wierzą, że leaderboard jest rzetelny, to wszyscy będą się nim posługiwać — a wtedy jego wpływ na branżę rośnie.

OpenAI ma interes w tym, żeby jej model GPT-4 lub GPT-5 zajmował wysoką pozycję na Arenie. Nie dlatego, że platforma jest bezstronna — dlatego, że wysoka pozycja oznacza więcej PR-u, więcej zainteresowania od inwestorów, więcej adopcji. Podobnie Anthropic, Google, czy każdy inny gracz. Wszyscy mają motywację, żeby Arena pokazywała ich model w jak najlepszym świetle. A wszyscy są inwestorami platformy, która ta pozycja decyduje.

To nie oznacza, że Arena celowo manipuluje wynikami na korzyść konkretnej firmy — choć to byłoby możliwe. Oznacza to, że struktura finansowania platformy tworzy systematyczne bodźce do faworyzowania inwestorów. Nawet jeśli algorytm jest uczciwy, nawet jeśli nie ma bezpośredniej manipulacji, system jako całość może systematycznie uprzedzać firmy, które go finansują.

Porównajmy to do sytuacji, która byłaby niedopuszczalna w innych branżach. Wyobraź sobie, że wszystkie główne producenci samochodów razem kupiłyby magazyn motoryzacyjny, który publikuje recenzje samochodów. Wszyscy byliby akcjonariuszami, wszyscy mieliby wpływ na politykę redakcji. Czy ktoś by wierzył, że recenzje są bezstronne? Oczywiście, że nie. A jednak w AI to się dzieje i wszyscy udajemy, że to normalne.

Jak leaderboard kształtuje rzeczywistość branży

Wpływ Areny na branżę jest rzeczywisty i mierzalny. Pozycja modelu na leaderboardzie bezpośrednio wpływa na wycenę startupów, decyzje inwestorów i strategie PR firm. Jeśli twój model zajmuje wysoką pozycję na Arenie, możesz to pokazać potencjalnym inwestorom, mediom, klientom. Jeśli zajmujesz niską pozycję, to problem — trzeba wyjaśniać, dlaczego leaderboard się myli, albo pracować nad poprawą.

To tworzy perverse incentive — firmy są motywowane do optymalizowania swoich modeli nie pod kątem tego, co faktycznie jest przydatne dla użytkowników, ale pod kątem tego, co dobrze wygląda na Arenie. Jeśli wiesz, jakie pytania są na leaderboardzie, lub możesz zgadnąć, jakie pytania tam będą, możesz dostroić model, żeby na nich dobrze wypadał. To jest forma gaming the metrics — dokładnie tego, co Arena twierdzi, że jej system uniemożliwia.

Drugi efekt: centralizacja władzy w ocenianiu. Zanim Arena stała się dominująca, było wiele sposobów na ocenianie modeli — akademickie benchmarki, nieformalny feedback użytkowników, recenzje na blogach, porównania w mediach. Każda z tych metod miała swoje słabości, ale razem tworzyły bardziej rozproszone pole oceniania. Teraz wszystko skupia się na jednej platformie, finansowanej przez tych samych graczy. To jest centralizacja, która nie jest korzystna dla branży.

Polskie implikacje i lokalne ekosystemy

W Polsce to może się wydawać odległe — my nie mamy OpenAI czy Anthropica, nie inwestujemy miliardów w rozwój frontier LLMs. Ale to ma dla nas znaczenie, bo polskie startupy i zespoły pracujące na AI będą musiały konkurować w przestrzeni, gdzie leaderboard Arena ma znaczenie. Jeśli polska firma chce budować model lub aplikację na bazie AI, będzie musiała brać pod uwagę, jak jej rozwiązanie będzie wypadać na Arenie.

Dodatkowo, polska branża technologiczna jest zainteresowana inwestycjami z zagranicy. Jeśli inwestorzy używają Areny jako źródła informacji o tym, które technologie AI są warte wspierania, to pośrednio Arena wpływa na decyzje o finansowaniu polskich projektów. To jest efekt pośredni, ale realny.

Jest też kwestia przejrzystości — polska regulacja, szczególnie w kontekście dyskusji o AI Act, powinna się interesować tym, jak powstają rankingi technologiczne, które mają wpływ na rynek. Jeśli platforma jest finansowana przez tych, których ocenia, to powinna być o tym przejrzysta i powinna być poddana regulacyjnemu nadzorowi.

Alternatywy, które nigdy się nie sprawdzą

Teoretycznie, mógłby istnieć niezależny leaderboard, finansowany przez podmioty neutrale wobec branży — na przykład przez organizacje non-profit, fundacje, czy nawet instytucje publiczne. Taki leaderboard byłby bardziej wiarygodny, bo nie miałby finansowego interesu w tym, żeby którykolwiek model wypadał lepiej czy gorzej.

Problem w tym, że taki leaderboard byłby mniej użyteczny dla branży. Firmy technologiczne nie byłyby zainteresowane jego wspieraniem, bo nie mogłyby go kontrolować. Media byłyby mniej zainteresowane, bo nie byłoby takiego PR potencjału. Użytkownicy mogliby być mniej zainteresowani, bo nie byłoby tej samej "gamifikacji" i konkurencji, którą Arena oferuje.

Innymi słowy, struktura, która byłaby bardziej wiarygodna, byłaby mniej wpływowa. A struktura, która jest wpływowa, jest finansowana przez tych, których ocenia. To jest sytuacja, w której rynek naturalnie zmierza do rozwiązania, które jest dla branży korzystne, ale dla obiektywności szkodliwe.

Przyszłość leaderboardów i pytanie o wiarygodność

Pytanie, które powinniśmy sobie zadawać, to nie czy Arena jest w pełni bezstronna — pewnie nigdy nie będzie — ale czy jej model finansowania jest do zaakceptowania. Czy powinniśmy pozwalać platformie, która ma tak duży wpływ na branżę, być finansowaną przez tych, których ocenia?

Odpowiedź, którą daje rynek, to tak — wszyscy akceptują ten model, bo jest on korzystny dla głównych graczy. Ale to nie oznacza, że jest to odpowiedź słuszna. Mogłoby być wymagane, żeby Arena była bardziej przejrzysta w kwestii swoich finansów, żeby publikowała szczegółowe informacje o tym, kto ją finansuje i jak to wpływa na jej działanie. Mogłoby być wymagane, żeby na jej zarządzie byli reprezentanci niezainteresowanych stron — naukowcy z uniwersytetów, pracownicy organów regulacyjnych, przedstawiciele użytkowników.

Ale tego się nie będzie dziać, bo branża nie ma motywacji, żeby to zrobić. Arena działa dobrze dla tych, którzy ją finansują, i to wystarczy. Reszta — przejrzystość, niezależność, wiarygodność — to są wartości, które są mniej ważne niż praktyczne korzyści z posiadania platformy, którą można wpływać.

Historia Areny to przede wszystkim lekcja o tym, jak szybko nowe struktury władzy mogą się ukonstytuować w branży, i jak łatwo jest zaakceptować rozwiązania, które są wygodne dla elity, nawet jeśli są problematyczne dla ogółu. To nie jest specyficzne dla AI — to jest uniwersalny problem, gdy mała grupa podmiotów ma dużą władzę. Ale w AI, gdzie wszystko zmienia się tak szybko, to jest szczególnie ważne.

Ranking, którą "nie da się oszukać", finansowany przez rankingi firm

Czytaj też

Od akademickiego projektu do arbitera branży

Mechanika leaderboardu, która wydaje się neutralna, ale nie jest

Konflikt interesów napisany wielkimi literami

Jak leaderboard kształtuje rzeczywistość branży

Polskie implikacje i lokalne ekosystemy

Alternatywy, które nigdy się nie sprawdzą

Przyszłość leaderboardów i pytanie o wiarygodność

Więcej z kategorii Startupy

Commonwealth Fusion Systems stawia na magnesy, by szybciej generować zyski

Różnorodne zespoły zaczynają się od różnorodnych VC

Reputacja borykającego się z problemami startupu YC Delve jest jeszcze gorsza

Finansowanie startupów bije wszelkie rekordy w Q1

Podobne artykuły

Peter Thiel stawia na zasilane słońcem obroże dla krów

Pogrążony w problemach startup Delve rozstaje się z Y Combinator

Anthropic: Subskrybenci Claude Code zapłacą dodatkowo za korzystanie z OpenClaw

Pracownik Facebooka tworzy moderację treści na miarę ery AI

Komentarze