OpenAI представила свою нову модель штучного інтелекту GPT-4o, яка значно розширює можливості обробки мовлення, порівняно з GPT-4. Розгортання GPT-4o буде поступовим, вона буде додана у всі продукти компанії для розробників і споживачів протягом найближчих тижнів, і вже зараз доступна у вигляді API.

Під час анонсу технічна директорка OpenAI Мурі Мураті підкреслила, що GPT-4o розширює можливості попередньої моделі GPT-4 завдяки мультимодальності, тобто використанні не тільки текстових даних для навчання, але й відео, аудіо, зображень та іншої візуальної інформації. Це значно покращило можливості GPT-4o в обробці мовлення.

ChatGPT раніше вже мав голосовий режим, який перетворював текстові відповіді чат-бота на мову, використовуючи модель перетворення тексту в мовлення. З GPT-4o ця функція значно покращилася, перетворивши ChatGPT на більш динамічний інструмент, подібний до віртуального асистента.

Тепер користувачі можуть спілкуватися з ChatGPT у розмовній манері, навіть перериваючи його посеред відповіді, а модель демонструє адаптивність у реальному часі. Крім того, GPT-4o здатний розпізнавати емоційні нюанси в голосі користувача і може відповідати в різних емоційних стилях, додаючи рівень персоналізації взаємодії.

Мураті також оголосила, що OpenAI випустить десктопну версію ChatGPT разом з оновленим користувацьким інтерфейсом. В компанії вважають, що таким чином зможуть спростити взаємодію користувачів з дедалі складнішими моделями штучного інтелекту.

Загалом, виходячи з того, що OpenAI активно веде перемовини з Apple щодо угоди про інтеграцію ChatGPT в iPhone, сьогодні нам показали на що можуть бути здатні голосові асистенти наступного покоління. Якщо ця угода справді відбудеться, то Apple нарешті зможе значно оновити Siri, зробивши зі свого віртуального помічника справді корисний інструмент.