OpenAI представила DALL-E 3, найновішу ітерацію своєї моделі синтезу зображень на основі штучного інтелекту. Ця версія може похвалитися безшовною інтеграцією з ChatGPT, що дозволяє моделі генерувати зображення, які точно відповідають складним описам. Вона також керує генерацією тексту на зображенні, наприклад, етикеток і підписів, що було складним завданням для попередніх версій. Модель стане доступною для користувачів ChatGPT Plus і Enterprise на початку жовтня.

DALL-E 3, як і його попередники, є генератором зображення, який створює унікальні картинки з письмових підказок. Хоча конкретні технічні деталі DALL-E 3 не розголошуються, можна припустити, що модель, як і попередні версії, була навчена на мільйонах зображень, створених людиною, деякі з яких були взяті з фотостоків, таких як Shutterstock. Нова модель, ймовірно, містить інноваційні методи навчання і збільшену тривалість обчислювального навчання.

Зразки зображень OpenAI для DALL-E 3 свідчать про те, що вона перевершує інші моделі синтезу зображень за здатністю точно слідувати підказкам. Зображення, згенеровані DALL-E 3, схоже, точно дотримуються заданих інструкцій, створюючи об’єкти з мінімальними спотвореннями. OpenAI підкреслює, що DALL-E 3 покращує складні деталі, такі як руки, більш ефективно, ніж DALL-E 2.

DALL-E 3 створює набагато детальніші зображення та буде інтегрований в ChatGPT

DALL-E 3 також демонструє покращену здатність вбудовувати текст у зображення, що було складною функцією для його попередника. Наприклад, підказка, що описує авокадо в кріслі терапевта, який вимовляє: “Я відчуваю таку порожнечу всередині”, призвела до появи мультяшного авокадо з точною фразою, представленою в мовній бульбашці.

DALL-E 3 створює набагато детальніші зображення та буде інтегрований в ChatGPT

OpenAI підкреслює, що DALL-E 3 був “нативно побудований” на ChatGPT. Ця інтеграція дозволить користувачам покращувати зображення в розмовному режимі, використовуючи ШІ-асистента як партнера для мозкового штурму. Це також означає, що ChatGPT може генерувати зображення на основі контексту поточної розмови, що потенційно відкриває інноваційні можливості. Варто зазначити, що AI-асистент Bing Chat від Microsoft, який використовує технологію OpenAI, генерує зображення під час розмови з березня.