Branża4 min czytaniaThe Register

Netflix dołącza do wyścigu AI i prezentuje własny edytor wideo

P
Redakcja Pixelift0 views
Udostępnij
Netflix dołącza do wyścigu AI i prezentuje własny edytor wideo

Foto: The Register

64,8% ankietowanych profesjonalistów wskazało VOID jako rozwiązanie nadrzędne wobec popularnego Runway, co stawia Netflix w roli niespodziewanego lidera technologii edycji wideo. Zaprezentowany 3 kwietnia 2026 roku model VOID (Video Object and Interaction Deletion) to zaawansowany Vision-Language Model, który wykracza poza proste usuwanie obiektów z kadru. W przeciwieństwie do dotychczasowych narzędzi, system ten potrafi inteligentnie „przepisać” fizykę sceny po usunięciu kluczowego elementu. Przykładowo, po wymazaniu samochodu biorącego udział w kolizji, VOID automatycznie koryguje ruch drugiego pojazdu oraz usuwa wszelkie skutki interakcji, takie jak dym, odłamki czy ślady hamowania, tworząc fizycznie wiarygodny obraz pustej drogi. Dla globalnej społeczności twórców oznacza to drastyczną redukcję kosztownych dokrętek (reshoots) i godzin spędzonych na ręcznym retuszu w postprodukcji. Model radzi sobie z ekstremalnie trudnymi scenariuszami, jak usuwanie osoby skaczącej do basenu przy jednoczesnym wymazaniu rozbryzgów wody i przywróceniu tafli do stanu spoczynku. Netflix, udostępniając VOID na platformie Hugging Face, demokratyzuje dostęp do technologii, która dotychczas była zarezerwowana dla największych studiów Hollywood. To wyraźny sygnał, że granica między czystą rejestracją obrazu a jego generatywną modyfikacją ostatecznie się zaciera, oddając w ręce montażystów narzędzie o niemal nieograniczonej sprawczości narracyjnej.

Wyobraź sobie finałową scenę wysokobudżetowego hitu kinowego „Car Crash III: Suddenest Impact”. Główny bohater, grany przez gwiazdora Cruz Control, uderza czołowo w nadjeżdżającą ciężarówkę. Eksplozja jest spektakularna, szczątki auta zasypują autostradę, a kariera bohatera kończy się w kłębach dymu. Nagle producentka decyduje: „A co, jeśli Cruz jednak przeżyje i odjedzie w stronę zachodzącego słońca?”. W tradycyjnym modelu produkcji oznaczałoby to kosztowne dokrętki lub miesiące pracy specjalistów od CGI. Dzięki nowej technologii od Netflix, ten scenariusz można zmienić kilkoma kliknięciami.

Gigant streamingowy oficjalnie dołączył do wyścigu zbrojeń w dziedzinie sztucznej inteligencji, prezentując model VOID. Nazwa ta jest akronimem od Video Object and Interaction Deletion i, jak sugeruje samo określenie, narzędzie to potrafi znacznie więcej niż tylko proste usuwanie obiektów z kadru. To zaawansowany model wizyjno-językowy (VLM), który redefiniuje sposób, w jaki rozumiemy edycję wideo i fizykę w świecie cyfrowym.

Fizyka zamiast pustych plam

Kluczową innowacją VOID jest zdolność do przeprowadzania tzw. fizycznie prawdopodobnego inpaintingu (uzupełniania obrazu). Większość dostępnych na rynku narzędzi do usuwania obiektów radzi sobie z tłem, ale zawodzi, gdy usunięty element miał wpływ na resztę sceny. Jeśli usuniemy osobę wskakującą do basenu, tradycyjne algorytmy mogą pozostawić nienaturalne rozbryzgi wody zawieszone w próżni lub rozmazaną teksturę tafli.

VOID rozumie interakcje. W przypadku wspomnianego skoku do wody, model nie tylko wymazuje postać, ale również generuje wideo, w którym tafla pozostaje niewzruszona, a na ziemi nie pojawiają się żadne zachlapania. W scenie wypadku samochodowego model potrafi usunąć jeden z pojazdów, wymazać ogień, dym oraz gruz, a następnie wygenerować płynny ruch drugiego samochodu, który porusza się tak, jakby do kolizji nigdy nie doszło. To przejście od prostej retuszerki do pełnej symulacji alternatywnej rzeczywistości.

Technologiczny fundament i twórcy

Za projektem stoi zespół badaczy z Netflix oraz Sofia University: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan oraz Ta-Ying Cheng. W swojej publikacji opisują VOID jako ramy zaprojektowane do modelowania złożonej dynamiki, która następuje po usunięciu obiektu. To podejście sprawia, że model radzi sobie w scenariuszach, które do tej pory były uznawane za zbyt skomplikowane dla automatycznych systemów edycji.

Co istotne dla branży kreatywnej, Netflix zdecydował się na otwartość. Model został udostępniony na platformie Hugging Face, co oznacza, że dostęp do niego mają nie tylko hollywoodzkie studia, ale każdy użytkownik dysponujący odpowiednią infrastrukturą sprzętową. To strategiczny ruch, który może przyspieszyć adopcję narzędzi AI w niezależnej produkcji filmowej i postprodukcji.

VOID na tle konkurencji

Rynek generatywnych narzędzi wideo staje się coraz bardziej nasycony. Netflix musiał zmierzyć się z uznanymi graczami i nowymi modelami, takimi jak:

  • Runway
  • Generative Omnimatte
  • DiffuEraser
  • ROSE
  • MiniMax-Remover
  • ProPainter

Zgodnie z wynikami badań przeprowadzonych przez twórców VOID, ich model deklasuje konkurencję. W testach przeprowadzonych na grupie 25 osób, które oceniały różne scenariusze, VOID został wskazany jako najlepszy w 64,8 procentach przypadków. Dla porównania, popularny Runway zajął drugie miejsce z wynikiem zaledwie 18,4 procenta. Ta miażdżąca przewaga wynika z faktu, że model Netflix lepiej radzi sobie z zachowaniem spójności czasowej i logicznej w edytowanych fragmentach.

"Poprzez szeroko zakrojone oceny w porównaniu z bazowymi modelami inpaintingu i wideo sterowanymi tekstem na danych syntetycznych i rzeczywistych, pokazujemy, że VOID doskonale radzi sobie z modelowaniem złożonej dynamiki" — deklarują autorzy projektu.

Koniec z drogimi dokrętkami?

Wdrożenie VOID może przynieść gigantyczne oszczędności w budżetach produkcyjnych. Możliwość zmiany kluczowych elementów sceny bez konieczności ponownego wzywania ekipy na plan to marzenie każdego producenta. Narzędzie to pozwala na korektę błędów, które wcześniej były niemożliwe do naprawienia w postprodukcji – od niepożądanych przechodniów w tle, po fundamentalne zmiany w choreografii walk czy kaskaderskich popisów.

Pojawia się jednak pytanie o etykę i autentyczność. W dobie narastającej fali dezinformacji, narzędzie zdolne do tak przekonującej manipulacji rzeczywistością budzi zrozumiałe obawy. Jeśli VOID potrafi sprawić, że wypadek samochodowy znika bez śladu, granica między tym, co zostało sfilmowane, a tym, co wygenerowane, staje się niemal niewidoczna. Technologia Netflix to potężny oręż w rękach twórców, ale jednocześnie kolejny krok ku cyfrowej płynności prawdy obrazu, która w nadchodzących latach zdefiniuje na nowo naszą relację z mediami wizualnymi.

Źródło: The Register
Udostępnij

Komentarze

Loading...