Сервіс генерації зображень штучним інтелектом Midjourney розпочав альфа-тестування четвертої версії (v4) своєї моделі переведення тексту в зображення, яка доступна для передплатників на сервері Discord, повідомляє ArsTechnica. Нова модель забезпечує більшу деталізацію, ніж раніше доступна, що надихнуло деяких ШІ-художників зауважити, що v4 майже робить «занадто легким» отримання високоякісних результатів завдяки простим підказкам.

Midjourney відкрився для громадськості в березні як частина ранньої хвилі моделей генерації зображень зі штучним інтелектом. Вона швидко здобула велику кількість прихильників завдяки своєму виразному стилю і тому, що стала загальнодоступною раніше, ніж DALL-E і Stable Diffusion.

Midjourney v4 – нова неймовірна версія ШІ-генератора зображень

Порівняння між Midjourney v3 (ліворуч) і v4 (праворуч) з підказкою «м’язистий варвар зі зброєю біля ЕПТ-телевізора, кінематографічний, 8К, студійне освітлення».

Згодом Midjourney удосконалив свою модель, додавши до неї більше тренувань, нових функцій і більшої деталізації. Поточна модель, відома як v3, дебютувала в серпні. Зараз Midjourney v4 тестується тисячами учасників сервера Discord, які створюють зображення за допомогою бота Midjourney. Наразі користувачі можуть спробувати версію 4, додавши «–v 4» до своїх підказок.

«V4 – це абсолютно нова кодова база і абсолютно нова архітектура ШІ, – написав засновник Midjourney Девід Хольц в оголошенні на Discord. – Це наша перша модель, навчена на новому суперкластері Midjourney AI, і вона знаходиться в роботі вже більше 9 місяців».

Під час тестування моделі Midjourney v4 виявилося, що вона забезпечує набагато більшу кількість деталей, ніж v3, краще розуміння підказок, кращу композицію сцен, а іноді й кращу пропорційність об’єктів. Якщо ви прагнете отримати фотореалістичні зображення, деякі результати може бути важко відрізнити від реальних фотографій з нижчою роздільною здатністю.

За словами Хольца, серед інших особливостей v4:

  • Набагато більше знань (про істот, місця та інше);
  • Набагато краще розпізнає дрібні деталі (у всіх ситуаціях);
  • Обробляє складніші підказки (з декількома рівнями деталізації);
  • Краще працює з багатооб’єктними / багатоперсонажними сценами;
  • Підтримує розширені функціональні можливості, такі як підказки зображень та мультипідказки;
  • Підтримує –chaos arg (встановіть його в діапазоні від 0 до 100) для керування різноманітністю сіток зображень.

Midjourney заявляє, що v4 все ще перебуває на стадії альфа-версії, тому розробники продовжать виправляти недоліки нової моделі. Компанія планує збільшити роздільну здатність і якість збільшених зображень v4, додати користувацькі співвідношення сторін, підвищити чіткість зображення і зменшити текстові артефакти. Midjourney доступна за щомісячну абонентську плату, яка становить від $10 до $50 на місяць.