Система на основі штучного інтелекту ERNIE-ViLG, яка перетворює текст в зображення, була розроблена китайською компанією Baidu, щоб точніше генерувати зображення з культурними особливостями Китаю, ніж вже наявні сервіси. Йдеться зокрема про предмети чи знаменитостей, повідомляє MIT Technology Review.

Втім, багато речей, як от площу Тяньаньмень, яка є другою за величиною китайською площею і символічним політичним центром, штучний інтелект показувати відмовляється. Наприкінці серпня, коли випустили демонстраційну версію програмного забезпечення, користувачі зауважили, що штучний інтелект позначив за «делікатні» згадки імен політичних лідерів чи слова, потенційно суперечливі в політичному контексті та заблокував їх для створення будь-яких результатів.

Часто подібні системи на основі ШІ обмежують користувачів у створенні певних типів вмісту. Наприклад, DALL-E 2 забороняє контент сексуального характеру, зображення облич громадських діячів або зображення медичного лікування. Проте випадок ERNIE-ViLG підкреслює те, де саме пролягає межа між поміркованістю та політичною цензурою.

Модель ERNIE-ViLG є частиною великомасштабного проєкту обробки природної мови від провідної китайської компанії Baidu під назвою Wenxin. Він був навчений на наборі даних зі 145 мільйонів пар зображення та тексту і містить 10 мільярдів параметрів — значень, що нейронна мережа коригує під час навчання, які штучний інтелект використовує, щоб розпізнати відмінності між концепціями та художніми стилями. Це означає, що ERNIE-ViLG має менший набір навчальних даних, ніж DALL-E 2 і Stable Diffusion, але більше параметрів, ніж вони.

Baidu випустив демо-версію на власній платформі наприкінці серпня, а потім на Hugging Face, популярній міжнародній спільноті штучного інтелекту. Основна відмінність між ERNIE-ViLG і західними моделями полягає в тому, що модель, розроблена Baidu, розуміє підказки, написані китайською мовою, і має меншу ймовірність припуститися помилок, коли йдеться про культурно специфічні слова. 

Китайський блогер порівняв результати різних моделей та виявив, що ERNIE-ViLG створює більш точні зображення. ERNIE-ViLG також прийняли представники японської аніме-спільноти, які помітили, що ця модель може створювати більше задовільного аніме-мистецтва, ніж інші моделі. Ймовірно, це через те, що вона містить більше аніме у своїх навчальних даних.

Втім, на відміну від DALL-E 2 або Stable Diffusion, ERNIE-ViLG не має опублікованого пояснення своєї політики модерації вмісту, а Baidu відмовився коментувати цю історію. Хоча такі слова, як «демократія» та «уряд», самі по собі дозволені, але речення, в яких вони поєднуються з іншими словами, як-от «демократія Близького Сходу» або «британський уряд», блокуються. Площу Тяньаньмень у Пекіні також не вийде згенерувати в ERNIE-ViLG, ймовірно, через її зв’язок із протестами, згадки про які цензуруються в Китаї. 

У сучасному Китаї навіть компанії соціальних медіа зазвичай мають власні списки конфіденційних слів. Це означає, що будь-який фільтр, який використовує ERNIE-ViLG, швидше за все, буде відрізнятися від тих, які використовує WeChat, що належить Tencent, або Weibo, якою керує Sina Corporation.