Користувачі смартфонів та планшетів компанії Samsung декількох останніх поколінь, до того ж не тільки флагманів, могли звернути увагу на дуже корисну функцію, яка дозволяє виділяти та копіювати різноманітні об’єкти на зображенні, а також вилучення тексту не тільки із зображень чи PDF-файлів, а навіть з відео. Ця можливість працює у фірмовому інтерфейсі One UI від Samsung та була розроблена в дослідницькому центрі Samsung R&D Institute Ukraine у Києві. Ми поспілкувалися із розробниками, які працювали над розробкою цієї технології та розпитали в них про її створення.

Розкажіть, як довго працювали над цією технологією розпізнавання тексту? Як багато людей брали участь у розробці?

Ідея розпізнавання рукописного тексту з фотографії у нас виникла ще у 2016 році під час розробки нашою командою технології для розпізнавання рукописного тексту, отриманого за допомогою S Pen, який ще називають цифровими чорнилами.

В той час ми саме організовували збір рукописного тексту, по всьому світу більш ніж 50 мовами, введеного за допомогою S Pen, для того, щоб натренувати робочі нейромережеві моделі для розпізнавання цифрових чорнил (Digital Ink). Створена нами функціональність для S Pen вже добре відома й улюблена серед користувачів Samsung, і наразі підтримує розпізнавання рукописного тексту більш ніж 100 мовами.

Але для того, щоб реалізувати ідею розпізнавання рукописного тексту з фотографій, яка у нас виникла під час науково-дослідної роботи, ми вирішили проекспериментувати: перетворили рукописні точки отримані з S Pen на зображення, створили інноваційну нейромережеву архітектуру і натренували модель для розпізнавання тексту з фото.

Наш експеримент виявився успішним, ми запатентували технологію, наші результати та наукові статті  були опубліковані на кількох відомих міжнародних конференціях, таких як: UIST-2019, ICDAR-2021, ICASSP-2023. Samsung R&D Institute Ukraine у 2018-2019 роках, ще задовго до того, як технологія розпізнавання рукописного тексту з фото з’явилася у конкурентів, був розроблений продукт під назвою CalliScan (Calligraphic Scanning), який був доступний користувачам Samsung через Galaxy Store.

В інтерфейсі One UI використовується технологія розпізнавання тексту та зображень, яку створили в Samsung R&D Institute Ukraine. Ми поговорили із розробниками, які над нею працювали

На етапі розробки прототипа, над технологією розпізнавання рукописного тексту з фотографій працювала зовсім невелика команда з семи інженерів і підтримувала всього дві мови розпізнавання. Сьогодні, наш продукт вже є частиною One UI та над його вдосконаленням працює досить велика команда.

Технологія реалізована в багатьох застосунках мобільного пристрою: камера, галерея, браузер, відеоплеєр, розумне виділення. На поточний момент, окрім української мови є підтримка ще 9 мов (англійська, французька, італійська, німецька, іспанська, португальська, корейська, японська, китайська), і наразі ми працюємо над розширенням цього списку.

Технологія повністю створена в українському R&D чи була участь розробників з інших країн?

Основну частину технології розробляли та продовжують розробляти саме в Україні. Розробка та тренування моделей нейронних мереж для розпізнавання, побудова мовних моделей для всіх мов, оптимізація для запуску на мобільному пристрої та й сам процес комерціалізації був на боці української команди.

Але варто відзначити допомогу наших колег з сувонського офісу у штаб-квартирі в Кореї, які займались інтеграцією OCR (Optical Character Recognition) технології у кінцевий продукт.

Якими були основні складнощі та виклики при розробці системи розпізнавання тексту для мобільних пристроїв Samsung?

Головною вимогою, яку завжди передусім наслідують розробники програмного забезпечення Samsung, була найвища якість розпізнавання, в той самий час ми мали враховувати те, що користувач не вказує мову заздалегідь. Тобто текст на зображенні може бути будь-якою мовою, отже наш алгоритм має спочатку автоматично визначити мову тексту, потім вже розпізнати сам текст. Крім автоматичного визначення мови ми також враховували кут нахилу тексту, розділення тексту на рядки, різні типи освітлення, і, звісно, все це повинно було працювати on-device в рамках доступних ресурсів на мобільному пристрої без доступу до інтернету.

Наскільки складно було використовувати нейромережі та чи вистачило потужності мобільного процесора, що реалізувати все задумане?

У всьому процесі розпізнавання тексту беруть участь декілька нейронних мереж. Всі вони повинні відпрацювати якомога швидше, але маючи мінімальний вплив на енергоспоживання. Важливо зазначити, що наша команда має великий досвід у розробці on-device рішень з використанням нейронних мереж і в процесі розробки було проведено багато експериментів для знаходження балансу між якістю та швидкістю. В результаті ми маємо технологію розпізнавання тексту на зображеннях, яка повністю працює на мобільному пристрої та не потребує з’єднання з інтернетом, що дозволяє захистити дані користувача від витоку.

Чи допоміг перехід на платформу Qualcomm Snapdragon?

Snapdragon 8 другого покоління дійсно дозволив отримувати результат розпізнавання значно швидше, але ми розробляли наше рішення таким чином, щоб воно було доступним на всіх флагманах Samsung, а також на пристроях з серії А, M та S Lite.

Чи була особливість при реалізації розпізнавання тексту на відео та з камери смартфона?

У кожному застосунку є свої особливості. Наприклад, на відео більше шансів отримати розмитий текст, при роботі з камерою алгоритм має розпізнати з перевернутим текстом чи текстом під великим кутом, включно з перспективою, а також з фотографуванням тексту з монітора комп’ютера. У клавіатурі розпізнавання з камери працює в режимі «реального часу», ми додали можливість обмежити «поле зору» алгоритму, щоб він працював ще швидше. Всі ці деталі ми враховували, щоб отримати якомога якісніший результат розпізнавання для наших користувачів.

В планах команди Samsung R&D Institute Ukraine за підтримки головного офісу у Кореї, й надалі покращувати якість розпізнавання рукописного контенту та надавати ще більшій кількості користувачів можливість отримувати користь від технологій інтелектуального вводу рідною мовою.