15 лютого компанія OpenAI представила нову генеративну модель штучного інтелекту Sora, яка дає змогу перетворювати текст на відео. Інструмент викликав захват у соцмережах, однак до повноцінного запуску йому належить чимало доопрацювань.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Sora здатна на основі простих текстових підказок генерувати відеоролики тривалістю до 60 секунд з роздільною здатністю до 1080p. Вони можуть містити кілька персонажів, певні типи руху і точні деталі об’єкта і фону.
В основі інструменту лежать дослідження GPT і DALL-E 3. Вона працює за так званою дифузійною моделлю – перетворює вихідне зображення на статистичний шум, а потім перетворює його, покроково цей шум видаляючи.
Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024
Розробники визнають, що на цьому етапі у Sora все ще є низка недоліків. Їй складно точно змоделювати фізику комплексної сцени – вона плутається в причинно-наслідкових зв’язках.
«Наприклад, людина може відкусити шматочок печива, але після цього на ньому може не залишитися сліду від укусу», – пояснюють в OpenAI.
У інструменту є проблеми з просторовими деталями. Отриманий результат може не відповідати заданим напрямкам, помилятися, де право і ліворуч.
Поки Sora доступна «червоній команді» тестувальників, а також обраним дизайнерам, художникам і кінематографістам.
Реакція соцмереж
Інструмент викликав захоплення в соцмережах і вже увійшов у тренди X з понад 173 000 постів.
Для наочної демонстрації можливостей моделі CEO OpenAI Сем Альтман почав приймати запити користувачів на генерацію відео. На момент написання він поділився загалом дев’ятьма роликами, створеними Sora.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
Експерти в галузі ШІ зазначили, що можливості Sora «позбавляють дару мови».
I don’t even know what to say…
These clips generated by OpenAI’s Sora model have me speechless.
We knew good AI text-to-video would come, but this quickly? Unreal.
We’re stepping into a new world.
Buckle up. pic.twitter.com/zP7b5fKw5x
— Mckay Wrigley (@mckaywrigley) February 15, 2024
За словами старшого наукового співробітника Nvidia Джима Фана, Sora набагато більше, ніж просто ще одна «творча іграшка», на кшталт DALL-E 3. Він визначив її як «фізичний рушій, керований даними», оскільки модель АІ не просто генерує абстрактне відео, а також інтуїтивно створює фізику об’єктів у самій сцені.
If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
Водночас низка користувачів висловила побоювання, що подібні до Sora інструменти посилять проблему діпфейків.
OpenAI, the builders of ChatGPT, have built Sora. A text to video AI system that creates 60 sec videos. It’s not yet available but is causing significant concern around its deep fake potential use. The issue isn’t just video content but how it’s used. https://t.co/Qujz3TfeH2
— Ian McLintock (@ian_mcl) February 16, 2024
На думку одного з користувачів, великим соцмережам потрібно задуматися над вбудованим захистом від реалістичних підробок. Окремо він виділив загрозу підміни відеодоказів злочинів.
Open AI launched #Sora that gives almost realistic text to video GAI:
1. Deep fake detection becomes super important against spread of misinformation (platforms like X should've in-built debunker of deep fakes)
2. Courts will have a hard time with video evidence as proof of crime— TheShunyaLab (@theshunyalab) February 16, 2024
Інший юзер заявив про необхідність технології зворотного проєктування De-AI, щоб уникнути неправильної інтерпретації контенту.
This is amazing! But we badly need a De-AI reverse engineering technology to avoid misinterpretation and deepfake generation to avoid misuse.#Sora #OpenAI #AI #DeepFake https://t.co/hazxryNlHI
— Neeraj Chauriya🇮🇳 (@neerajchauriya) February 16, 2024
Раніше OpenAI почала тестувати функцію «пам’яті» для чат-бота ChatGPT, яка зберігає обговорювану в розмовах інформацію для поліпшення взаємодії з користувачем.
При цьому компанія активно протидіє використанню своїх продуктів у незаконних цілях.