Sztuczna inteligencja5 min czytaniaThe Verge AI

Automatyzacja zadań w Gemini: powolna, toporna i niesamowita

P
Redakcja Pixelift0 views
Udostępnij
Automatyzacja zadań w Gemini: powolna, toporna i niesamowita

Foto: The Verge AI

Dziewięć minut – dokładnie tyle zajęło sztucznej inteligencji zamówienie kolacji, co w świecie technologii mobilnych wydaje się wiecznością, a jednak stanowi przełomowy moment w rozwoju osobistych asystentów. Google Gemini, testowany na modelach Pixel 10 Pro oraz Galaxy S26 Ultra, zyskał właśnie funkcję automatyzacji zadań, która pozwala mu przejąć kontrolę nad ekranem i samodzielnie obsługiwać zewnętrzne aplikacje. Choć obecnie rozwiązanie to znajduje się w fazie beta i ogranicza się do wybranych usług rideshare oraz dostaw jedzenia, po raz pierwszy użytkownicy mogą zobaczyć AI działającą autonomicznie w realnych warunkach, a nie tylko w kontrolowanych demach. System działa w tle, co pozwala użytkownikowi odłożyć telefon, podczas gdy Gemini analizuje menu, dodaje produkty do koszyka (rozumiejąc np., że dwie półporcje składają się na jedno danie) lub planuje przejazd na lotnisko na podstawie danych z kalendarza. Choć proces bywa powolny i momentami niezdarny – asystent potrafi kilkukrotnie przeoczyć pozycję na liście – jego skuteczność w finalizowaniu zamówień jest zaskakująco wysoka. Dla bezpieczeństwa AI zatrzymuje się przed samym przyciskiem płatności, wymagając ostatecznego potwierdzenia od człowieka. Dla globalnego użytkownika oznacza to zmianę paradygmatu: telefon przestaje być tylko narzędziem, które obsługujemy, a staje się autonomicznym agentem wykonującym żmudne czynności za nas. To koniec ery prostych komend głosowych i początek rzeczywistego delegowania cyfrowych obowiązków.

Wizja cyfrowego asystenta, który wyręcza nas w żmudnym przeklikiwaniu się przez aplikacje, od lat gościła w materiałach promocyjnych gigantów technologicznych, ale rzeczywistość rzadko dorównywała obietnicom. To, co przez dekadę oferowały Siri czy Asystent Google, było raczej zestawem prostych skryptów głosowych niż autonomicznym działaniem. Jednak premiera nowej automatyzacji zadań w Gemini, testowanej na flagowcach Pixel 10 Pro oraz Samsung Galaxy S26 Ultra, wyznacza moment zwrotny. Choć system jest obecnie w fazie beta i bywa irytująco powolny, po raz pierwszy mamy do czynienia z technologią, która faktycznie przejmuje stery nad interfejsem smartfona.

Gdy AI przejmuje kontrolę nad ekranem

Nowa funkcja Gemini to nie tylko generowanie tekstu czy streszczanie e-maili. To próba stworzenia AI Agent — oprogramowania, które rozumie strukturę aplikacji mobilnych zaprojektowanych dla ludzi i potrafi się po nich poruszać. W praktyce wygląda to tak, że użytkownik wydaje jedną, ogólną komendę, a Gemini zaczyna "klikać" w naszym imieniu. Obecnie system wspiera ograniczoną liczbę usług, skupiając się głównie na dostawach jedzenia i transporcie, takich jak Uber czy Uber Eats.

  • Autonomiczna nawigacja: AI potrafi samodzielnie przewijać menu, dodawać produkty do koszyka i wybierać opcje dostawy.
  • Rozumowanie w locie: System wykazuje się zaskakującą logiką — przykładowo, gdy menu oferuje tylko "pół porcji", Gemini potrafi dodać dwie sztuki, by zrealizować zamówienie na pełny posiłek.
  • Praca w tle: Automatyzacja nie wymaga ciągłej uwagi użytkownika; proces może toczyć się, gdy my zajmujemy się czymś innym, co jest kluczową przewagą nad ręcznym wprowadzaniem danych.

Mimo tych zalet, proces jest daleki od błyskawicznego. Zamówienie kolacji, które człowiekowi zajmuje dwie minuty, Gemini może zająć nawet dziewięć minut. System "myśli" nad każdym krokiem, analizuje zawartość ekranu i czasem gubi się w gąszczu przycisków, co przypomina obserwowanie początkującego użytkownika smartfona, który z wielkim trudem odnajduje właściwe ikony.

Bariera ludzkiego interfejsu

Największym wyzwaniem dla Gemini nie jest brak mocy obliczeniowej, lecz fakt, że dzisiejsze aplikacje są optymalizowane pod ludzkie oko i palec, a nie pod algorytmy AI. Reklamy typu pop-up, skomplikowane układy graficzne czy niejednoznaczne nazewnictwo potraw (np. "zestaw" zamiast "talerz") to pułapki, w które Gemini wpada regularnie. Obserwowanie, jak model AI próbuje zlokalizować przystawkę, która znajduje się na samym środku ekranu, bywa bolesnym doświadczeniem dla obserwatora.

To fundamentalny paradoks: zmuszamy najbardziej zaawansowane modele językowe świata do interpretowania interfejsów, które są dla nich kompletnie nienaturalne. AI nie potrzebuje przycisków, zdjęć o wysokiej rozdzielczości ani banerów promocyjnych — potrzebuje czystych danych.

Obecne podejście Google, oparte na czystym rozumowaniu wizualnym (reasoning approach), jest traktowane jako rozwiązanie tymczasowe. Branża zmierza w stronę standardów takich jak Model Context Protocol (MCP) czy Android App Functions. Mają one pozwolić aplikacjom na udostępnianie swoich funkcji bezpośrednio modelom AI, z pominięciem warstwy wizualnej. Dopóki to się nie stanie, Gemini będzie skazane na mozolne "przeklikiwanie" się przez piksele, co zawsze będzie generować opóźnienia i błędy.

Kontekst, który zmienia zasady gry

Prawdziwa siła Gemini objawia się jednak wtedy, gdy sztuczna inteligencja łączy kropki między różnymi usługami Google. W testach scenariuszowych AI wykazało się imponującą inicjatywą przy planowaniu podróży. Mając jedynie ogólną informację o locie zapisaną w kalendarzu, Gemini potrafiło samodzielnie sprawdzić godzinę wylotu z e-maila, obliczyć optymalny czas dojazdu na lotnisko z uwzględnieniem lokalizacji użytkownika i zaproponować rezerwację Ubera na konkretną godzinę.

To właśnie tutaj leży różnica między starymi asystentami a nową generacją. Tradycyjne systemy wymagały precyzyjnych komend ("Zarezerwuj Ubera na 11:30"). Gemini rozumie intencję ("Dostarcz mnie na jutrzejszy lot na czas") i samo wykonuje pracę analityczną. Fakt, że system odróżnia potoczne określenia od oficjalnych nazw w menu aplikacji, sprawia, że bariera między językiem naturalnym a kodem staje się niemal niewidoczna.

W połowie drogi do agentów AI

Google stosuje w tym przypadku bezpiecznik: automatyzacja zatrzymuje się tuż przed finalnym przyciskiem płatności. To użytkownik musi ostatecznie zatwierdzić transakcję, co w fazie beta jest jedynym rozsądnym rozwiązaniem. Choć system rzadko "idzie na żywioł" i zazwyczaj poprawnie konfiguruje zamówienia, zdarzają mu się błędy wynikające z braku dostępu do danych lokalizacyjnych lub uprawnień aplikacji, co wymaga manualnej interwencji w pierwszych minutach zadania.

Mimo swojej ociężałości, nowa funkcja w Pixel 10 Pro i Galaxy S26 Ultra jest czymś więcej niż tylko technologiczną ciekawostką. To dowód na to, że system operacyjny przyszłości nie będzie opierał się na ikonach aplikacji, które musimy otwierać, lecz na warstwie inteligentnego pośrednika. Obecna powolność Gemini jest ceną za naukę poruszania się w świecie zaprojektowanym dla ludzi.

Można zaryzykować tezę, że stoimy u progu ery, w której smartfon przestaje być narzędziem, które obsługujemy, a staje się koordynatorem naszych potrzeb. Dzisiejsze dziewięć minut oczekiwania na zamówienie pizzy przez AI to tylko etap przejściowy. W momencie, gdy deweloperzy zaczną dostosowywać swoje aplikacje pod standardy MCP, te same operacje będą trwały sekundy, a rola użytkownika ograniczy się jedynie do wypowiedzenia życzenia i autoryzacji płatności biometrią.

Źródło: The Verge AI
Udostępnij

Komentarze

Loading...