Технологии

OpenAI създаде Sora, нов продукт за видео съдържание

Достъпът до технологията все още е ограничен и е в своята тестова фаза

Антон Чепилски

Leonardo.ai © Leonardo.ai

Вечерни новини

Всяка делнична вечер получавате трите най-четени статии от деня, заедно с още три, препоръчани от редакторите на "Капитал"

Темата накратко

Видеата, които Sora може да създава, са с максимална продължителност от 60 секунди.
Технологията все още не застрашава професионални гилдии.
От американската OpenAI твърдят, че стъпки за предотвратяването на злоупотреба с тяхната технология се взимат още отсега.

Във филма "s1m0ne" от 2002 г. персонажът на Ал Пачино е режисьор, който прибягва до отчаяно решение - използването на виртуална актриса, която той кръщава Симона (s1m0ne от името на програмата Simulation one). Пачино контролира всеки детайл от играта на софтуерната актриса превръщайки я в най-обичаната на планетата, а нейните фенове даже не знаят, че тя не е истинска.

Преди двадесет и две години този филм е просто фантастика, но със Sora на OpenAI се доближаваме това някой ден да е реалност. Обявеният тази седмица продукт на американската компания е модел за изкуствен интелект, който създава реалистичен видеоматериал. Технологията е базирана върху вече съществуващата база данни от изображения и произведения от Dall-e, който също е продукт на OpenAI.

Достъпът до технологията засега е ограничен до определен брой потребители, като са поканени представители на филмовата индустрия, дизайнери и визуални артисти. Все още няма обявени планове за това колко точно ще струва продуктът, когато стане достъпен за всички потребители.

Кое е новото в Sora?

Новото предложение на OpenAi е дифузионен модел, който създава видеосъдържание в няколко отделни етапа. Първата стъпка е изграждането на образ с много статичен шум, който постепенно се изчиства, докато не достигне визуално задоволяващо ниво. В момента Sora може да създава съдържание с максимално времетраене от една минута, като качеството на детайлите във всяко видео зависи много от специфичността на въвеждащия текст. Моделът на изкуствения интелект може да бъде използван и за удължаване на съществуващи материали или безпроблемно преминаване от един кадър в друг.

Технологията на Sora надгражда над съществуващите модели използвани при Dall-e и chatGPT. Създаването на съдържание не е ограничено до следване на команди от написан текст. Новият продукт на OpenAI може да създава видео от снимка или да използва съществуващо видео, за да добави кадри и да удължи времетраенето на видеото.

"Sora е основата за модели, които могат да разбират и симулират истинския свят. Умение, което смятаме, че ще е важно при създаването на изкуствен общ интелект (AGI)", отбелязват на страницата си от OpenAI. "Сегашният модел има слабости. Той изпитва трудности с точното симулиране на сложна сцена и същевременно може да не разбира в конкретика причина и следствие. Например, ако един човек отхапе от една курабийка и после я остави на масата, то в последния кадър курабийката може да е все още цяла. Моделът може също така да има проблеми с пространствени детайли от команди, обърквайки ляво и дясно или специфична поредица от събития, като например специфична траектория на камерата", обясняват те.

Останахме ли без работа

Първата реакция, която всеки би имал при гледането на примерните видеа в официалната страница на Sora, е почуда, смесена с лека уплаха. Подобни са множеството коментари под публикацията в социалната мрежа X, където реакциите варират от "уау, неповторимо" до "вашите учени се чудеха дали могат и не се попитаха дали трябва". На пръв поглед качеството изглежда впечатляващо и подбужда съмнението дали това би могло да застраши работните места на хора в различните браншове.

"Нашата компания вече експериментира с него и подобни, но в нашата ниша трябва да си изключително прецизен и да работиш в невероятен детайл, до най-малкия пиксел. Не смятам, че моделите на изкуствен интелект са все още на етап, в който може да правиш нещо наистина добро с тях. Трябва ни още време за експериментиране, за да видим все пак какво може да прави или ще е просто загуба на време. Дяволът винаги е в детайлите и ако успява да ми спести времето, за да нарисува някоя чиния или нещо друго и ми дава време да се фокусирам върху важните неща, супер", коментира за "Капитал" Юрай Зубан, превизуализатор и поствизуализатор 3D анимация за британското студио The third floor. Той добавя, че в крайна сметка качеството на произведеното съдържание ще зависи от това върху какво точно се обучава системата. "Няма да се изненадам ако се получи ситуация, в която имате два различни клипа, където имате изцяло еднакви елементи, които сте виждали в друга среда. Било то замък или друг обект. Тези системи имат навика да изпадат в един стил на изкуство и да се повтарят от там нататък и липсва иновация. Трябва да добавя, че ги използвам за генерирането на идеи и в някои моменти може да спестиш време", завършва Зубан.

Мнението му се подкрепя в онлайн пространството от други професионални аниматори и артисти. Един от тях е Оуен Фърн, артист в британската Jellyfish Pictures, който разбива едно от видеата на Sora в детайл, подчертавайки, че промените на този етап не могат да бъдат нанесени както би искал клиент.

Технологията идва в момент, когато създаването на съдържание с изкуствен интелект за филми и сериали, с което да се понижат разходите за произвеждането им, бе в центъра на стачките в Холивуд, които продължиха цели четири месеца.

Друга ниша, която някои предполагат, че би могла да бъде застрашена от навлизането на такива технологии, е във видео игрите. Студията, с които се свърза "Капитал", еднозначно отговориха, че тези технологии се разглеждат, но са твърде далеч от това да бъдат заплаха за експертите в сферата.

Един сегмент, който засега е сигурно, че е застрашено, е в създаването на изключително кратки съдържания като стоковите кадри и снимки.

Несигурна реалност

Създаването на видео съдържание с помощта на изкуствен интелект е далеч от новост. За първи път се появяват видеа, използващи технологията дълбок фалшификат, през 2017 г. в онлайн форума Reddit. Само две години по-късно според различни източници в интернет пространството има около 15 хил. дълбоки фалшификати, докато през 2023 г. очакванията са, че над 500 хил. видео и звукови клипове в социалните мрежи са от такова естество. Тези включва видеа и звукови файлове с политически лидери или известни влиятелни личности.

Въпреки присъствието на толкова много фалшиви записи и технологии, законодателството се движи сравнително бавно. Нерегламентирано ползване на такъв тип технологии продължава да създава проблеми в необхватен обем в сегашното ни поляризирано общество.

Наскорошен пример за това беше скандалът с циркулиращ звуков запис на кмета на Лондон Садик Кан, който се чува да казва "Мамка му на Деня на възпоменанието". Записът е доказан фалшификат, но въпреки това предизвика голям фурор в столицата на Великобритания. В САЩ нещото, което най-накрая задейства тамошните органи, беше нашумелият скандал със създадените чрез изкуствен интелект неприлични снимки на любимката на Америка Тейлър Суифт. България също видя как технологията може да бъде използвана за постигането на политически цели със звукови записи на Георги Титюков, който все още се разследва, и бившия кмет на Пловдив Иван Тотев преди местните избори в Града под тепетата.

Според становището на страницата на Sora предотвратяването на възможността за използването на продукта за създаването на вредно съдържание е първоначалното ограничение в достъп до него. "Работим с експерти в сферата на дезинформацията, омразно съдържание и предразсъдъци, които ще тестват обстойно нашия продукт. Изграждаме и уреди, с които да засичаме подвеждащо съдържание, като класификатор за откриване, който ще може да потвърждава дали видео е направено чрез Sora", пишат на сайта си от OpenAI.

Съществуват и други ограничения, които ще бъдат внедрени като забранени фрази и ключови думи, с които да се предотврати създаването на опасно съдържание. Компанията също така твърди, че през цялото време ще си съдейства с артисти и законодателни органи, за да е сигурна, че навигира всички възможни проблеми в бъдеще.