Zachwyca, ale też przeraża. Poznaj możliwości nowego silnika sztucznej inteligencji Sora AI, który tworzy filmy

2024-02-20, 18:23

Zachwyca, ale też przeraża. Poznaj możliwości nowego silnika sztucznej inteligencji Sora AI, który tworzy filmy
Kadr z wideo wygenerowanego przez Sora AI oraz tekst, który posłużył do stworzenia filmu.Foto: OpenAI/Youtube

Fotorealistyczne filmy wideo są już możliwe dzięki sztucznej inteligencji. Gigant branży, firma OpenAI zaprezentował "Sora AI", model, który może zmienić branżę filmową i nie tylko. Nowy model szokuje jakością, ale budzi też wiele kontrowersji. Na szczegóły zwracają uwagę eksperci, przestrzegając też przed zagrożeniami i deepfake’ami.

Sora to nazwa nowego modelu sztucznej inteligencji zaprezentowany w połowie lutego przez firmę OpenAI. Lider dziedziny, szeroko dziś wykorzystywanej i wdrażanej w kolejnych obszarach, po raz kolejny wstrząsną cyfrowym światem. Udostępniono generator realistycznych scen na podstawie tekstowych opisów. Sceny nie są już jednak wyłącznie cyfrowymi ilustracjami, a w pełni filmami.

Po podaniu instrukcji, co ma być treścią tworzonego materiału, Sora AI wyświetli wideo. Podobnie jak w przypadku bota ChatGPT, który zyskał popularność dzięki swoim możliwościom generowania tekstów, Sora także robi wrażenie.

Sztuczne szczeniaki, jak żywe dzięki AI

Po wpisaniu hasła "miot szczeniąt golden retrievera bawiących się na śniegu. Ich głowy wyłaniają się ze śniegu" otrzymujemy kadry, ukazujące trzy szczeniaki wskazanej rasy, które w zabawie rozrzucają śnieg wokół siebie. Wyglądają tak, jakby zachęcały filmującą je osobę do wzięcia udziału w rozrzucaniu śniegu, próbują zaczepiać łapami, zachęcając do interakcji. Jednak filmująca je osoba nie istnieje, całość wygenerowała sztuczna inteligencja. Scena ze szczeniakami jest drugą w filmie wprowadzającym do możliwości Sory. Wcześniej wita nas animowany kangur tańczący disco.

Filmy wygenerowane przez ten model AI wyglądają, zupełnie tak, jakby były nakręcone przez człowieka. Obrazy są złożone i pełne szczegółów, a do ich powstania wystarczą krótkie tekstowe wskazówki. Eksperci zwracają jednak uwagę, że to tylko pierwsze wrażenie, że "w zasadzie nie można dostrzec różnicy" – te są, gdy uważniej przyjrzymy się filmom. Choćby sposobom w jaki poruszają się generowane żywe obiekty, lub zmianom, jakie zachodzą w czasie - np. gdy jeden z członków ekipy budowlanej zilustrowanej w filmie niespodziewanie "zmienia" kamizelkę.

Co o produkcie mówi OpenAI? Przede wszystkim to, że model Sora AI nie jest jeszcze dostępny dla użytkowników. O możliwościach tego generatora wideo na razie dowiadujemy się z treści udostępnionych przez jego twórców.

"Dzielimy się naszymi postępami w badaniach, aby uzyskać opinie od osób spoza OpenAI i dać im podpowiedź, co do możliwości AI, jakie są na horyzoncie. Zanim wyniki tych badań będą dostępne w jednym z naszych produktów, podejmiemy kilka ważnych kroków w zakresie bezpieczeństwa" – zastrzegają autorzy Sory.

OpenAI reklamuje model Sora jako narzędzie, które potrafi generować zarówno realistyczne, jak i animowane filmy na podstawie tekstu. Jego możliwości, bazując na samej kilkuminutowej prezentacji wydają się ogromne. Sora jest opisywana jako narzędzie, które może zatrzeć granicę między tym, co wirtualne i realne. Firma OpenAI podkreśla, że Sora "doskonale rozumie język", co pozwala jej "dokładnie interpretować tekstowe opisy i na ich podstawie tworzyć scenerie i postacie wyrażające żywe emocje".

Testy AI w wąskim gronie

Gigant sztucznej inteligencji przyznaje, że Sora jest jeszcze na bardzo wczesnym etapie rozwoju i może mieć problem z odpowiednią interpretacją niektórych poleceń. Co ciekawe, już zdecydowano się na udostępnienie modelu do testów wąskiej, specjalnie wyselekcjonowanej grupie osób, głównie z branży filmowej. To również niepokoi specjalistów branży AI – w jakim kierunku będzie podążał rozwój narzędzia, eksponując jego możliwości komercyjne, a lekceważąc np. kwestie etyczne, zastosowania przy tworzeniu realistycznych deepfaków.

Czytaj także:

Jak podkreślają twórcy, Sora to element "badań", w których sztuczna inteligencja uczona jest rozumienia i symulowania świata fizycznego w ruchu. W opisie badań, zatytułowanym "Modele generowania wideo, jako symulatory świata", możemy przeczytać, że celem nowego mechanizmu jest szkolenie modeli AI, które pomagają ludziom rozwiązywać problemy wymagające interakcji w świecie rzeczywistym.

Ekspert ds. sztucznej inteligencji Gary Marcus podkreśla, że OpenAI chce, żebyśmy uwierzyli, w tak przedstawiony cel rozwoju jego modeli AI. Jego zdaniem takie twierdzenia są mylące, a pomoc w rozwiązywaniu problemów interakcji w rzeczywistości jest mało prawdopodobna, by być prawdziwą. Dlatego postanowił bliżej analizować wynikowe filmy Sory.

Co z zasadami fizyki?

"Sora to ogólny model danych wizualnych — może generować filmy i obrazy o różnym czasie trwania, proporcjach i rozdzielczościach, aż do pełnej minuty wideo w wysokiej rozdzielczości" – podają jej twórcy z OpenAI.

Z tego opisu poznajemy pierwsze techniczne ograniczenia Sory, funkcjonujące na aktualnym etapie "badań" OpenAI. Obecnie maksymalna długość filmu wygenerowanego za pomocą Sory to 60 sekund. Model ten może też generować filmy o maksymalnej rozdzielczości 1920x1080 lub 1080x1920 pikseli. Te ograniczenia wydają się jednak wyłącznie narzuconymi przez autorów oprogramowania modelu i nie wykluczone, że na kolejnych etapach będą zmieniane.

Poważniejszym ograniczeniem jest kwestia rozumienia związków przyczynowo-skutkowych. Sora może mieć mieć trudność w symulowaniu złożonych scen fizycznych i zrozumieniu związków przyczynowo-skutkowych. Twórcy dodają jednak, że Sora jest na wczesnym etapie rozwoju, a OpenAI wciąż pracuje nad udoskonaleniem modelu.

Co jest możliwe? Silnik potrafi zmienić obrazy statyczne wygenerowane przez sztuczną inteligencję w pełnoprawne wideo, możliwe jest rozszerzanie istniejących materiałów wideo o opisane tekstem sekwencje, zmiana scenerii w istniejących lub wygenerowanych filmach, by np. kadry sfilmowane na ulicach miasta przenieść w dzicz dżungli, czy łączenie i "dyfuzja" różnych filmów czy materiałów źródłowych. Możliwe jest także zaawansowane przetwarzanie i generowanie obrazów statycznych.

Bez odpowiedzi pozostaje teraz podstawowe pytanie – w jaki sposób OpenAI osiągnęło tak zaawansowane rezultaty, a konkretnie, co posłużyło modelowi za dane wejściowe. Niestety właściwie nic nie wiemy o tym, na czym Sora "trenowała" generowanie nowych wideo. Nie ulega wątpliwości, że wymagała olbrzymiej ilości danych filmowych. Zakładając, że podobnie, jak inny produkt OpenAI – ChatGPT – korzysta z treści online, także do budowy modelu użyto zasobów wideo w sieci, a jak podkreślają komentatorzy, model musiał poznać każdy zakątek z wideo w całym internecie. To rodzi pytania choćby o przestrzeganie praw autorskich w konstruowaniu modelu AI Sory. Podobne zarzuty padały także wobec innych firm, które komercjalizują narzędzia AI, m.in. Google i Microsoft.

Jak zaawansowane możliwości wyjaśnia OpenAI? Firma podaje, że to po prostu szerokie "inspiracje". W opisie, którego publikacja towarzyszyła prezentacji Sory znajdujemy sformułowanie, że "czerpie inspirację z dużych modeli językowych, które nabywają ogólne możliwości poprzez szkolenie na danych w skali internetowej".

Tak niejasne wyjaśnienie źródła danych to już tradycja firmy, która udostępniła ChatGPT. Niektórzy złośliwie twierdzą, że OpenAI otwartość pozostawiło już wyłącznie w swojej nazwie. Jak mówi Gary Marcus, "firma (pomimo swojej nazwy) charakterystycznie milczy w kwestii tego, na czym szkoliła swoje modele".

Generatywne AI – ulubieniec dezinformacji i deepfake'ów

W kwestii możliwości rozwoju i zastosowań sztucznej inteligencji, istotniejsze od pytania "czy możemy to zrobić", powinno być pytanie "czy powinniśmy to zrobić". Syntetyczne generowanie treści stało się bowiem ulubionym mechanizmem w dezinformacji, wykorzystywanym we wszelkich wojnach informacyjnych.

Marcus przed możliwościami Sory przestrzega wprost: "handlarze dezinformacją i propagandą mają już dla niej niezliczoną ilość zastosowań. Uwaga na wybory w 2024 r.". Analizując możliwości silnika i towarzyszące wideo promocyjne, punktuje słabości Sory, kładąc nacisk nie tylko na poszanowanie praw autorskich i etykę, ale także na zachowanie zasad biologii, fizyki i różne "artefakty", których nie są pozbawione syntetyczne filmy. Obiekty, gdy opisywane są zbiory kilku, potrafią znikąd pojawić się w kadrze – model nie radzi sobie często z ciągłością czasoprzestrzenną. Ekspert zwraca uwagę, że wystarczy dokładniej przyjrzeć się szczegółom, co robią też widzowie, uważnie wyszukując "nierealności" w wygenerowanych filmach.

Lider zespołu AI w firmie NVIDIA, Jim Fan, zwraca uwagę, że do szkolenia Sory mogły być także wykorzystywane dane syntetyczne, a nowy model od OpenAI mógł być szkolony przy użyciu silnika gier Unreal Engine 5. On także nie jest już używany wyłącznie do produkcji gier, ale różnym twórcom daje nowe możliwości wyrazu. Z drugiej strony, w przyszłości wielu twórców przez generowane tekstowo i syntetycznie wideo może być pozbawionych pracy. Co ważne, przez narzędzia, które mogą być uczone teraz na ich własnych produkcjach.

Jak ocenia Gary Marcus rozczarowujące jest sprowadzenie siły i możliwości AI i wielkich mocy obliczeniowych do generowania obrazów zależnych i dzieł pochodnych, od utworów już istniejących. Widzowie filmów reklamujących model SoraAI dostrzegają też niebezpieczeństwa – filmy na pierwszy rzut oka są piękne, po chwili zastanowienia pojawia się jednak niepokój, że są całkowicie sztucznym wytworem. W komentarzach częste jest określenie "piękne, ale przerażające".

Przemysław Goławski
TT,Mashable,OpenAI

Czytaj także:

Polecane

Wróć do strony głównej