W momencie, gdy rynek sztucznej inteligencji przyspiesza do tempa, jaki jeszcze niedawno wydawał się niemożliwy, pojawia się fundamentalny problem: jak ocenić, który model jest najlepszy? Nie chodzi tu o akademickie dyskusje czy wewnętrzne benchmarki korporacyjnych laboratorium. Chodzi o coś znacznie bardziej wpływowego — o publiczny ranking, który faktycznie decyduje o milionach dolarów finansowania, terminach premier produktów i kierunkach całych kampanii PR. I okazuje się, że tym arbitrem stał się projekt stworzony przez trzech doktorantów z UC Berkeley, którzy zaledwie siedem miesięcy temu byli jeszcze nieznani poza murami uniwersytetu. To historia o tym, jak niszowe narzędzie badawcze przemieniło się w najważniejszą sędzią przemysłu AI.

Arena, wcześniej znana jako LM Arena, to platforma, która pozwala użytkownikom porównywać odpowiedzi różnych modeli językowych na te same pytania. Wygląda na pozór prosto — wpisujesz prompt, system zwraca odpowiedzi od dwóch losowych modeli, ty wybierasz, która jest lepsza. Ale w rzeczywistości to narzędzie stało się czymś na kształt Oscara dla sztucznej inteligencji, z tą różnicą, że statuetki przyznawane są nie przez elitę, lecz przez miliony użytkowników z całego świata. Ranking generowany przez Arenę pojawia się w mediach, influencuje decyzje inwestorów, a producenci modeli obsesyjnie monitorują swoje pozycje. Kiedy Claude 3.5 Sonnet od Anthropic awansował na pierwsze miejsce, było to wydarzenie godne nagłówków. Kiedy Grok X od Elona Muska pojawił się w rankingu, wszyscy czekali z zapartym tchem, gdzie wyląduje.

Historia tego, jak trzej PhD studenci zmienili krajobraz konkurencji w AI, mówi nam wiele o czasach, w których żyjemy. Pokazuje, jak szybko może się przesunąć władza w branży, jak decyzje mogą być podejmowane przez niedoświadczonych, ale inteligentnych ludzi, i jak publiczny konsensus może stać się bardziej wpływowy niż wewnętrzne metryki gigantów technologicznych. Ale to również historia pełna napięć, konfliktów interesów i pytań o to, czy jeden ranking powinien mieć taką władzę nad przyszłością całej branży.

Trzej studenci, którzy nie wiedzieli, że tworzą standard branżowy

Geneza Areny jest typowa dla ekosystemu startupów technologicznych: grupa inteligentnych ludzi, czasami niedoświadczeni w biznesie, dostrzega problem i tworzy eleganckie rozwiązanie. W tym przypadku problemem była fragmentacja oceny modeli AI. Kiedy w 2023 roku zaczął się boom na dużych modelach językowych, każda organizacja oceniała je inaczej. OpenAI miała swoje benchmarki, Google miał swoje, Anthropic miał swoje. Naukowcy publikowali artykuły z własnymi metrykami. Wyniki były niespójne, czasami wręcz sprzeczne. Nikt nie wiedział naprawdę, który model jest najlepszy, bo każdy pomiar dawał inną odpowiedź.

Trzej doktoranci z UC Berkeley — Lianmin Zheng, Ying Sheng i Hao Zhang — postanowili stworzyć coś radykalnie prostszego: crowdsourcingową platformę, na której zwykli użytkownicy mogą porównywać modele. Nie chodzili tu o naukową precyzję czy zaawansowane metryki. Chodzilo o to, co rzeczywiście działa w praktyce, co ludzie uważają za lepsze, kiedy muszą wybrać między dwiema odpowiedziami. To była genialna intuicja: zamiast pytać, co mówią benchmarki, zapytaj ludzi, którzy faktycznie używają te modele.

Platforma była prosta, ale efektywna. Interfejs przyjazny użytkownikowi, brak zbędnych komplikacji. Wpisujesz pytanie, dostajesz dwie odpowiedzi, wybierasz lepszą. System zbiera tysiące, a potem miliony takich głosów i na tej podstawie generuje ranking. Algorytm używany do tego rankingu to Bradley-Terry model, ten sam, który stosuje się w turniejach szachowych czy sportowych rankingach. Matematyka była solidna, ale podejście było rewolucyjne: zamiast tworzenia benchmarku, stworzyli system, w którym benchmark tworzy się sam poprzez agregację preferencji użytkowników.

Kiedy platforma została uruchomiona, nikt nie spodziewał się, że osiągnie taką skalę i wpływ. Studenci liczyli na to, że będzie użytecznym narzędziem dla badaczy, może do artykułu naukowego. Zamiast tego w ciągu kilku miesięcy Arena przyciągnęła miliony użytkowników. Ranking zaczął być cytowany w artykułach prasowych. Firmy zaczęły go obsesyjnie monitorować. Inwestorzy zaczęli go sprawdzać przed podjęciem decyzji o finansowaniu. To, co miało być akademickim projektem, stało się de facto standardem branżowym.

Jak niszowy projekt stał się arbitrem milionów dolarów

Przełomowy moment dla Areny nastąpił, gdy wyniki z platformy zaczęły się różnić od oficjalnych benchmarków publikowanych przez producenci modeli. Kiedy model otrzymywał wysoką ocenę na Arenie, ale słabą w oficjalnych testach, lub odwrotnie, zaczęło się coś interesującego: ludzie zaczęli wierzyć Arenie bardziej. Dlaczego? Bo Arena testuje modele w rzeczywistych scenariuszach, z pytaniami, które ludzie faktycznie zadają, a nie sztucznym zestawem testowym stworzonym przez producenta.

To zaufanie szybko przełożyło się na władzę. Kiedy startup ubiegał się o finansowanie, inwestorzy pytali: "Jaka jest twoja pozycja na Arenie?" Kiedy firma planowała premierę nowego modelu, PR zespoły liczyły na to, że wyląduje wysoko w rankingu. Kiedy naukowcy publikowali artykuły o nowych architekturach, porównywali swoje wyniki z Areną. Ranking stał się czymś, co ekonomiści mogliby nazwać price discovery mechanism — mechanizmem, przez który rynek odkrywa rzeczywistą wartość produktu.

Najbardziej dramatycznym przykładem tej władzy było pojawienie się Claude 3.5 Sonnet od Anthropic na szczycie rankingu. Nie była to taka sama seria modeli jak wcześniejsze wersje Claude'a. Dla wielu obserwatorów ten awans na pierwsze miejsce był zaskoczeniem, bo wcześniej OpenAI i jego GPT-4 dominowały. Ale gdy Anthropic zaczął promować ten wynik, media podchwyciły wiadomość, inwestorzy zwrócili uwagę, a dla samej Anthropic to stało się kluczowym argumentem w rozmowach z funduszami venture capital. Ranking z Areny stał się częścią narracji sukcesu. To nie był zwykły benchmark — to była walidacja przez publiczność.

Równocześnie pojawił się problem: jeśli jeden ranking ma taką władzę, to czy nie powinien być bardziej przejrzysty, bardziej regulowany, bardziej niezależny? Studenci z UC Berkeley znaleźli się w sytuacji, którą trudno sobie wyobrazić — trzej ludzie, którzy kilka miesięcy wcześniej pisali rozprawy doktorskie, teraz decydowali faktycznie o hierarchii całej branży AI. To była włada, którą nikt im nie powierzył formalnie, którą nikt nie wybrał, ale którą wszyscy respektowali.

Kryzys wiarygodności i konflikt interesów

Oczywiście, taka koncentracja wpływu nie mogła przejść bez problemów. Zaczęły się pytania o bias w rankingu, o to, czy system rzeczywiście jest sprawiedliwy, czy może faworyzuje pewne typy modeli lub pytań. Producenci modeli, którzy nie byli zadowoleni z wyników, zaczęli kwestionować metodologię. Dlaczego właśnie te pytania są wybierane? Dlaczego właśnie ta populacja użytkowników? Czy system nie faworyzuje modeli, które są lepsze w odpowiadaniu na pytania dla zachodniej, anglojęzycznej publiczności?

Pojawił się również problem z samą naturą crowdsourcingu. Gdy ranking staje się ważny, ludzie zaczynają go manipulować. Mogą się zorganizować, aby głosować na konkretny model. Mogą tworzyć pytania, które faworyzują pewne modele. Mogą nawet wynajmować farmy klików, aby sztucznie podnieść wyniki. Arena musiała wprowadzić systemy ochrony przed tego typu manipulacją, ale zawsze jest to gra kotek i mysz — gdy system zabezpieczeń się pojawia, pojawiają się nowe sposoby na obejście go.

Innym problemem jest konflikt interesów. Trzej założyciele Areny są badaczami z UC Berkeley, ale jednocześnie pracują nad własnymi projektami AI. Czy ich decyzje o tym, jak działa ranking, mogą być stronnicze? Czy mogą faworyzować pewne podejścia badawcze, które ich interesują? To może być paranoia, ale w świecie, gdzie jeden ranking decyduje o milionach dolarów, paranoja jest uzasadniona.

Dodajmy do tego jeszcze jeden problem: strategiczne uczestnictwo. Producenci modeli wiedzą, że Arena istnieje. Mogą więc optymalizować swoje modele nie pod kątem tego, co jest naprawdę dobre, lecz pod kątem tego, co będzie dobrze wypadać w testach Areny. To jest klasyczny problem Goodharta — gdy miara staje się celem, przestaje być dobrą miarą. Jeśli wszyscy optymalizują pod kątem Areny, to ranking przestaje mówić nam o rzeczywistej zdolności modeli, a zaczyna mówić nam tylko o tym, jak dobrze modele są zoptymalizowane pod kątem Areny.

Polska perspektywa: czy to nas dotyczy?

Dla polskich twórców, badaczy i firm technologicznych Arena może wydawać się odległa — czymś, co dzieje się w Dolinie Krzemowej. Ale w rzeczywistości ma to bezpośredni wpływ na polski ekosystem AI. Po pierwsze, każdy polski startup pracujący nad modelami AI musi teraz myśleć o tym, jak będzie wypadać na Arenie. Jeśli chcesz привлечь inwestorów z Zachodu, musisz pokazać im, że twój model jest konkurencyjny — a jednym ze sposobów, aby to udowodnić, jest dobra pozycja na Arenie.

Po drugie, polska akademia i badacze mają dostęp do tej samej platformy co wszyscy inni. Jeśli polska grupa badawcza opracuje nowy model czy nową architekturę, może ją przetestować na Arenie i porównać z modelami gigantów technologicznych. To demokratyzacja — nikt cię nie musi zapraszać, nikt cię nie musi walidować. Twoja praca może być oceniana przez publiczność na równych zasadach z pracą OpenAI czy Anthropic.

Po trzecie, Arena pokazuje nam, że przyszłość technologii nie będzie zdeterminowana tylko przez wielkie korporacje. Może ją kształtować niewielka grupa inteligentnych ludzi, którzy stworzą narzędzie, które wszyscy będą chcieli używać. To lekcja dla polskiego ekosystemu startupowego: czasami nie trzeba budować lepszego produktu niż konkurencja, trzeba zbudować lepszy system do oceny produktów konkurencji.

Matematyka za rankingiem: dlaczego Bradley-Terry model jest geniuszem

Aby zrozumieć, dlaczego Arena jest tak wpływowa, warto zagłębić się w matematykę za tym, jak działa ranking. Trzej założyciele wybrali Bradley-Terry model, probabilistyczną metodę porównywania elementów, która pochodzi z lat pięćdziesiątych i była początkowo używana do rankingowania sportowców. Model zakłada, że gdy porównujesz dwa elementy, prawdopodobieństwo, że jeden będzie wybrany zamiast drugiego, zależy od ich ukrytych "siły" lub "zdolności".

To eleganckie rozwiązanie dla problemu, który wydaje się prosty, ale nie jest. Jeśli masz miliony głosów od milionów użytkowników, jak agregować te głosy w spójny ranking? Nie możesz po prostu liczyć głosów, bo to byłoby niesprawiedliwe — model, który jest testowany częściej, otrzymałby więcej głosów. Bradley-Terry model rozwiązuje to poprzez statystyczne modelowanie: każdy głos jest traktowany jako punkt danych w probabilistycznym modelu, a ranking jest wynikiem maksymalizacji wiarygodności tego modelu.

Wynik to ranking, który jest nie tylko sprawiedliwy, ale również ma wbudowaną miarę niepewności. Arena wie, z jaką pewnością można powiedzieć, że model A jest lepszy od modelu B. Jeśli różnica jest mała, ranking to pokazuje. To naukowość, ale ukryta za prostym interfejsem. Dla użytkownika to po prostu ranking, ale za kulisami dzieje się zaawansowana statystyka.

Jednak nawet ta matematyka ma swoje ograniczenia. Bradley-Terry model zakłada, że każdy głos jest niezależny i że preferencje użytkowników są przejściwe — jeśli A jest lepsze od B, a B od C, to A powinno być lepsze od C. W rzeczywistości preferencje ludzi mogą być sprzeczne i zależne od kontekstu. Model może być lepszy w pisaniu kodu, ale gorszy w tłumaczeniu. Ranking nie może tego oddać — musi dać jedną liczbę dla każdego modelu.

Przyszłość: czy jeden ranking wystarczy?

Pytanie, które coraz częściej pojawia się w branży, to: czy jedna platforma powinna mieć taką władzę? Alternatywne rankingi już się pojawiają. Hugging Face ma swoje leaderboardy. Chatbot Arena ma konkurencyjne platformy. Ale żaden z nich nie ma takiego wpływu jak Arena. To niebezpieczne — zarówno dla branży, jak i dla samego Areny. Jeśli ranking stanie się zbyt ważny, może być celem ataków, manipulacji, lub może po prostu zawieść, gdy wszyscy będą od niego zależeć.

Trzej założyciele Areny są tego świadomi. W ostatnich miesiącach starali się bardziej transparentnie komunikować o metodologii, o limitacjach rankingu, o tym, co on mierzy, a czego nie mierzy. Ale pytanie pozostaje: czy można być arbitrem branży i jednocześnie być niezainteresowanym graczem w tej branży? Czy Arena powinna zostać przekazana neutralnej organizacji, takiej jak IEEE czy inna instytucja naukowa? Czy powinna zostać zdecentralizowana, aby nikt nie miał nad nią kontroli?

Na razie Arena pozostaje tym, czym jest: narzędziem stworzonej przez trzech inteligentnych ludzi, które przypadkowo stało się najważniejszym benchmarkiem w branży AI. To jest zarówno jej siła, jak i jej słabość. Siła, bo to oznacza, że narzędzia mogą być tworzone przez małe zespoły i mogą mieć wielki wpływ. Słabość, bo to oznacza, że jeden ranking, stworzony przez trzech ludzi, decyduje o miliardach dolarów inwestycji i kierunku, w którym zmierza cała branża. Historia Areny to historia siły i odpowiedzialności, która przychodzi nieoczekiwanie i czasami przytłacza.

Lekcje dla ekosystemu: kiedy narzędzie staje się władzą

Jeśli jest jakaś uniwersalna lekcja z historii Areny, to taka: w szybko rozwijającej się branży, pierwsza osoba, która stworzy narzędzie do mierzenia i porównywania, zyska ogromną władzę. To nie jest zawsze zamierzone, ale to naturalna konsekwencja. Kiedy wszyscy potrzebują odpowiedzi na pytanie "jaki model jest najlepszy?", a ty masz jedyną wiarygodną odpowiedź, ty masz władzę.

To ma implikacje dla przyszłości. Jeśli AI będzie się rozwijać w kierunku specjalizowanych modeli — jeden dla medycyny, jeden dla prawa, jeden dla kodowania — to będą potrzebne specjalizowane rankingi. Kto je stworzy? Prawdopodobnie mała grupa ludzi, którzy będą mieć władzę nad tymi branżami. To może być dobrze, jeśli ci ludzie będą etyczni i przejrzyści. Może być źle, jeśli będą mieć ukryte agendy.

Dla polskich twórców, badaczy i firm to jest również lekcja. Czasami nie musisz tworzyć najlepszego produktu. Musisz stworzyć narzędzie, które wszyscy będą chcieli używać do oceny produktów. To może być bardziej wpływowe i bardziej dochodowe niż sam produkt. Arena zarabia poprzez subskrypcje i partnerstwa, ale jej rzeczywista wartość jest w wpływie, który ma na branżę. To jest model biznesowy, który warto studiować.

Ostatecznie, historia trzech doktorantów z UC Berkeley, którzy zmienili krajobraz oceny AI, to historia o tym, jak w czasach szybkich zmian, mała grupa inteligentnych ludzi może mieć ogromny wpływ. To inspirujące, ale również powinno nas zaniepokoić. Gdy jedna platforma ma taką władzę, pytania o przejrzystość, niezależność i reprezentatywność stają się kluczowe. Arena pokazała nam, że benchmark nie jest neutralnym narzędziem — to pole walki, na którym decyduje się przyszłość branży.

Doktoranci, którzy zostali sędziami branży AI

Czytaj też

Trzej studenci, którzy nie wiedzieli, że tworzą standard branżowy

Jak niszowy projekt stał się arbitrem milionów dolarów

Kryzys wiarygodności i konflikt interesów

Polska perspektywa: czy to nas dotyczy?

Matematyka za rankingiem: dlaczego Bradley-Terry model jest geniuszem

Przyszłość: czy jeden ranking wystarczy?

Lekcje dla ekosystemu: kiedy narzędzie staje się władzą

Więcej z kategorii Sztuczna inteligencja

Szef Cisco, Chuck Robbins, chce budować centra danych w kosmosie

Jak korzystać z nowych integracji ChatGPT z DoorDash, Spotify, Uber i innymi aplikacjami

Hiszpański Xoople pozyskuje 130 mln dolarów w serii B na mapowanie Ziemi dla AI

Copilot służy wyłącznie do celów rozrywkowych według regulaminu Microsoft

Podobne artykuły

„Problemem jest Sam Altman”: Pracownicy OpenAI nie ufają swojemu CEO

Google po cichu udostępnia nową aplikację AI do dyktowania działającą offline

Iran grozi centrom danych AI o nazwie kodowej Stargate

Iran grozi centrum danych Stargate od OpenAI w Abu Dhabi

Komentarze