Rynek otwartych modeli językowych właśnie przeszedł istotne przetasowanie. Rok po premierze poprzedniej generacji, Google oficjalnie zaprezentowało Gemma 4 — nową rodzinę modeli o otwartych wagach, które mają rzucić wyzwanie liderom segmentu open-source. Najważniejszą wiadomością nie są jednak same parametry techniczne, ale radykalna zmiana w podejściu do licencjonowania. Gigant z Mountain View porzuca restrykcyjne, autorskie zapisy na rzecz powszechnie uznanej licencji Apache 2.0, co otwiera zupełnie nowy rozdział w budowaniu ekosystemu określanego przez firmę jako „Gemmaverse”.

Cztery warianty dla lokalnej wydajności

Nowa rodzina modeli została zaprojektowana z myślą o pracy lokalnej, co jest odpowiedzią na rosnące zapotrzebowanie na prywatność i redukcję kosztów związanych z infrastrukturą chmurową. Gemma 4 debiutuje w czterech różnych rozmiarach, zoptymalizowanych pod kątem konkretnych zastosowań sprzętowych. Najpotężniejsze jednostki to 31B Dense oraz 26B Mixture of Experts (MoE). Zostały one skonfigurowane tak, aby działać w formacie bfloat16 na pojedynczym akceleratorze Nvidia H100 z 80 GB pamięci VRAM. Choć mowa o sprzęcie profesjonalnym, po zastosowaniu kwantyzacji modele te bez trudu zmieszczą się na konsumenckich kartach graficznych wysokiej klasy.

Szczególnie interesująco prezentuje się model 26B MoE. Dzięki architekturze Mixture of Experts, podczas generowania odpowiedzi aktywuje on zaledwie 3,8 miliarda parametrów z całkowitej puli 26 miliardów. Przekłada się to na znacznie wyższą liczbę tokenów na sekundę w porównaniu do modeli o tradycyjnej, gęstej strukturze. Z kolei wariant 31B Dense stawia na jakość i precyzję, stanowiąc idealną bazę do dalszego dostrajania (fine-tuning) przez deweloperów do specyficznych zadań biznesowych czy naukowych.

Grafika prezentująca premierę modeli Gemma 4 — Gemma 4 wprowadza cztery warianty modeli zoptymalizowane pod kątem pracy lokalnej i mobilnej.

Mobilna rewolucja i optymalizacja krawędziowa

Druga para modeli, Effective 2B (E2B) oraz Effective 4B (E4B), to propozycja skierowana bezpośrednio na urządzenia mobilne i segment edge computing. Google podkreśla, że przy ich projektowaniu kluczowa była ścisła współpraca z inżynierami firm Qualcomm oraz MediaTek. Celem było maksymalne ograniczenie zużycia pamięci operacyjnej oraz energii, co jest krytyczne w przypadku smartfonów czy urządzeń typu Raspberry Pi i Jetson Nano.

Modele te charakteryzują się wyjątkowo niskimi opóźnieniami, które Google określa mianem „near-zero latency”. W porównaniu do poprzedniej generacji, Gemma 4 E2B i E4B oferują nie tylko lepszą wydajność, ale również natywne wsparcie dla rozpoznawania mowy. Co więcej, ich okno kontekstowe zostało rozszerzone do 128k tokenów (podczas gdy większe modele 26B i 31B oferują 256k tokenów). To ogromny skok, pozwalający na przetwarzanie obszernych dokumentów bezpośrednio na urządzeniu użytkownika, bez konieczności przesyłania danych do chmury.

Gemma 31B Dense: Trzecie miejsce w rankingu Arena wśród modeli otwartych, wysoka jakość rozumowania.
Gemma 26B MoE: Wysoka szybkość dzięki aktywacji tylko 3,8B parametrów podczas pracy.
Gemma E4B: Zoptymalizowany dla urządzeń mobilnych, wysoka sprawność przy małym poborze mocy.
Gemma E2B: Najlżejszy model, idealny dla systemów wbudowanych i prostych zadań AI na smartfonach.

Nowy standard otwartości: Apache 2.0

Największą barierą w adopcji poprzednich wersji Gemmy była autorska licencja Google. Zawierała ona restrykcyjne zapisy dotyczące dozwolonego użytku, które firma mogła jednostronnie zmieniać, a także budzące kontrowersje punkty dotyczące własności modeli trenowanych na danych syntetycznych wygenerowanych przez Gemmę. Przejście na Apache 2.0 to strategiczny ruch, który ma uwiarygodnić Google w oczach społeczności open-source.

Licencja Apache 2.0 jest powszechnie znana, liberalna i nie nakłada uciążliwych ograniczeń komercyjnych. Deweloperzy zyskują pewność, że zasady gry nie zmienią się w trakcie trwania projektu. Google liczy na to, że większa swoboda zachęci twórców do budowania zaawansowanych aplikacji typu „agentic workflow”, czyli systemów zdolnych do autonomicznego wykonywania zadań. Gemma 4 jest na to gotowa, oferując natywne wsparcie dla wywoływania funkcji (function calling), strukturyzowane wyjście JSON oraz optymalizację pod kątem generowania kodu, dorównującą w środowisku offline możliwościom takich usług jak Claude Code czy Gemini Pro.

Gemma 4 na wykresach wydajności — Nowe modele Gemma 4 osiągają wysokie wyniki w rankingach Arena przy znacznie niższej liczbie parametrów niż konkurencja.

Fundament pod Gemini Nano 4

Premiera modeli E2B i E4B rzuca również światło na przyszłość sztucznej inteligencji w ekosystemie Android. Google oficjalnie potwierdziło, że nadchodząca aktualizacja lokalnego modelu Gemini Nano 4, obecnego w telefonach Pixel, będzie bazować właśnie na architekturze Gemma 4. To istotna informacja dla deweloperów, ponieważ systemy prototypowane dzisiaj w AI Core Developer Preview z użyciem modeli E2B i E4B będą w pełni kompatybilne z przyszłymi wersjami systemu operacyjnego.

Gemma 4 oferuje poprawione rozumowanie, zdolności matematyczne oraz lepsze podążanie za instrukcjami, bazując na tej samej technologii, co zamknięte modele Gemini 3.

Wsparcie dla ponad 140 języków oraz znaczące usprawnienia w zakresie optycznego rozpoznawania znaków (OCR) i analizy wykresów sprawiają, że Gemma 4 staje się jednym z najbardziej wszechstronnych narzędzi w rękach programistów. Modele są już dostępne do pobrania w serwisach Hugging Face, Kaggle oraz Ollama, a także można je testować w AI Studio. Choć Google promuje pracę lokalną, udostępnia również możliwość uruchomienia nowych modeli w ramach płatnej infrastruktury Google Cloud.

Można założyć, że ruch Google wymusi na konkurencji podobne kroki w stronę liberalizacji licencji. Udostępnienie tak potężnych narzędzi pod egidą Apache 2.0 sprawia, że bariera wejścia w zaawansowane projekty AI oparte na lokalnym sprzęcie drastycznie spada. Gemma 4 nie jest tylko kolejną aktualizacją techniczną — to próba przejęcia kontroli nad narracją w świecie otwartego oprogramowania AI, gdzie do tej pory karty rozdawały Meta czy mniejsze, zwinne startupy. Skalowanie wydajności przy jednoczesnym zmniejszaniu liczby parametrów pokazuje, że Google odrobiło lekcję z optymalizacji, a deweloperzy otrzymali właśnie jeden z najpotężniejszych argumentów za tym, by pozostać w ekosystemie giganta.

Google ogłasza otwarte modele Gemma 4 i przechodzi na licencję Apache 2.0

Cztery warianty dla lokalnej wydajności

Czytaj też

Mobilna rewolucja i optymalizacja krawędziowa

Nowy standard otwartości: Apache 2.0

Fundament pod Gemini Nano 4

Więcej z kategorii Sztuczna inteligencja

Szef Cisco, Chuck Robbins, chce budować centra danych w kosmosie

Jak korzystać z nowych integracji ChatGPT z DoorDash, Spotify, Uber i innymi aplikacjami

Hiszpański Xoople pozyskuje 130 mln dolarów w serii B na mapowanie Ziemi dla AI

Copilot służy wyłącznie do celów rozrywkowych według regulaminu Microsoft

Podobne artykuły

„Problemem jest Sam Altman”: Pracownicy OpenAI nie ufają swojemu CEO

Google po cichu udostępnia nową aplikację AI do dyktowania działającą offline

Iran grozi centrom danych AI o nazwie kodowej Stargate

Iran grozi centrum danych Stargate od OpenAI w Abu Dhabi

Komentarze