OpenAI представив удосконалену версію програми DALL-E, яка може створювати зображення на основі текстових фраз. Наприклад, візуалізувати «кіт, зроблений із суші» або «лисиця, яка сидить у полі взимку». DALL-E 2 має вищу роздільну здатність та меншу затримку, ніж у свого попередника. 

Першу версію DALL-E презентували у січні 2021 року. Тоді консорціум OpenAI, заснований Ілоном Маском за фінансової підтримки Microsoft, представив свій найамбітніший проєкт – систему машинного навчання. Цей мультимодальний AI був здатний створювати зображення (хоча й дещо мультяшні) на основі опису користувача.

Штучний інтелект DALL-E 2 від OpenAI створює з тексту фантастичні зображення
“Малюнок лисиці, що сидить на полі на світанку, у стилі Клода Моне”. Зображення, створене DALL-E

DALL-E отримав назву від поєднання слів «Dali» (художник) та WALL-E (персонаж однойменного мультфільму від Pixar). Перша версія могла генерувати зображення або об’єднувати кілька зображень у колаж. Вона також подавала зображення під різним кутом, враховуючи перспективу, та навіть робила висновки про окремі елементи (наприклад, тіні) з письмового опису. 

«На відміну від рушія 3D-рендерингу, вхідні дані для якого мають бути однозначними та детальними, DALL-E часто може заповнювати пропуски – коли підпис передбачає, що зображення може мати деталі, не вказані точно», – розповіли у команді OpenAI минулого року. 

DALL-E 2, що використовує систему розпізнавання зображень CLIP від OpenAI, заснований на її потенціалі генерувати зображення. Зараз користувачі можуть обирати та редагувати певні ділянки існуючої картинки, додавати чи видаляти елементи разом з їхніми тінями, змішувати два зображення в один колаж та робити варіанти існуючої картинки. 

Штучний інтелект DALL-E 2 від OpenAI створює з тексту фантастичні зображення Штучний інтелект DALL-E 2 від OpenAI створює з тексту фантастичні зображення

Щобільше, створені зображення мають роздільну здатність 1024px на відміну від аватарок на 256px, що генерувала попередня версія. CLIP від OpenAI розробили для перегляду зображень та узагальнення їх змісту так, щоб це зрозуміла людина. У роботі над новою системою розробники «перевернули» цей процес, навпаки створюючи зображення з опису. 

DALL-E не планувався як комерційний продукт, тож його можливості дещо обмежені. Команда OpenAI працює із ним, як з дослідницьким інструментом. До того ж система навмисно обмежена, щоб її не використали для дезінформації. DALL-E 2 так само захистили, прибравши з навчальних даних потенційно неприйнятні зображення. На згенеровані програмою продукти також додають водяний знак, який свідчить про те, що зображення створив AI. 

Система має й інші запобіжники. Вона не дозволяє користувачам генерувати зображення, якщо в описі є власні назви – імена, пам’ятки архітектури тощо. Не спрацює також усе, що стосується оголених тіл, непристойності, екстремістських ідеологій, значних змов та поточних подій у геополітиці. 

На відміну від першої версії, з якою кожен міг погратись на сайті OpenAI, нова наразі доступна лише для тестування партнерами. Своєю чергою, вони обмежені в тому, що можна завантажувати до DALL-E 2 або генерувати з його допомогою. Тестувальникам також не дозволяють ділитись своїми роботами на інших платформах. Щоб випробувати DALL-E 2 самостійно, можна записатись у чергу на сайті розробника.