OpenAI залучала низькооплачуваних робітників, щоб зробити ChatGPT менш токсичним - головне з розслідування Times

openai-chatgpt

Тарас Міщенко Головний редактор Mezha.Media. Тарас має понад 15 років досвіду в IT-журналістиці, пише про нові технології та ґаджети.

21 січня 2023, 12:09

ChatGPT був визнаний однією з найбільших технологічних інновацій 2022 року після його випуску в листопаді минулого року. Потужний чат-бот зі штучним інтелектом (ШІ) може генерувати текст практично на будь-яку тему – від сонета Шекспіра, переосмисленого в стилі Меган Тей Сталліон, до складних математичних теорем, описаних мовою, зрозумілою 5-річній дитині. За перший тиждень роботи його відвідало понад мільйон користувачів.

Розробник ChatGPT, компанія OpenAI, зараз веде переговори з інвесторами про залучення коштів на суму $29 мільярдів, включаючи потенційну інвестицію від Microsoft у розмірі $10 мільярдів. Це зробить OpenAI, засновану в Сан-Франциско у 2015 році з метою створення суперінтелектуальних машин, однією з найдорожчих компаній у світі в галузі штучного інтелекту.

Але історія успіху – це не лише заслуга геніїв Кремнієвої долини. У своєму прагненні зробити ChatGPT менш токсичним, OpenAI використовувала аутсорсингових кенійських робітників, які заробляли менш як $2 доларів на годину, як показало розслідування Time.

Ця робота була життєво важливою для OpenAI. Попередник ChatGPT, GPT-3, вже продемонстрував виняткову здатність зв'язувати речення в одне ціле. Але його було важко продати, оскільки застосунок також був схильний випускати насильницькі, сексистські та расистські висловлювання. Це пояснюється тим, що ШІ був навчений на сотнях мільярдів слів, вискоблених з інтернету – найбільшого сховища людської мови.

Цей величезний набір навчальних даних став причиною дивовижних лінгвістичних здібностей GPT-3, але також, можливо, і його найбільшим прокляттям. Оскільки деякі частини інтернету рясніють токсичними та упередженими матеріалами, не було простого способу очистити ці навчальні дані. Навіть команді з сотень людей знадобилися б десятиліття, щоб вручну перебирати величезні масиви інформації. Лише створивши додатковий механізм безпеки на основі штучного інтелекту, OpenAI зміг зменшити цю шкоду, створивши чат-бота, придатного для повсякденного використання.

Щоб створити цю систему безпеки, OpenAI взяв приклад з таких соціальних мереж, як Facebook, які вже продемонстрували, що можна створити окремий ШІ, здатний виявляти токсичні висловлювання, такі як мова ворожнечі, щоб допомогти видалити їх зі своїх платформ.

Передумова була проста: дайте штучному інтелекту марковані приклади насильства, мови ненависті та сексуального насильства, і він навчиться виявляти ці форми токсичності. Цей детектор буде вбудований у ChatGPT, щоб перевіряти, чи не повторює він токсичність навчальних даних, і відфільтровувати їх ще до того, як вони потраплять до користувача. Він також може допомогти вичистити токсичний текст з навчальних наборів даних майбутніх моделей ШІ.

Щоб отримати ці мітки, OpenAI відправив десятки тисяч фрагментів тексту аутсорсинговій фірмі в Кенії, починаючи з листопада 2021 року. Значна частина цього тексту була витягнута з найтемніших куточків інтернету. У деяких з них у графічних деталях описувалися такі ситуації, як сексуальне насильство над дітьми, зоофілія, вбивства, самогубства, тортури, заподіяння собі шкоди та інцест.

Аутсорсинговим партнером OpenAI в Кенії стала компанія Sama, що базується в Сан-Франциско і наймає працівників у Кенії, Уганді та Індії для маркування даних для клієнтів з Кремнієвої долини, таких як Google, Meta і Microsoft. Sama позиціює себе як «етичну AI-компанію» і стверджує, що допомогла вирватися з бідності понад 50 000 людей.

Маркувальники даних, найняті Sama від імені OpenAI, отримували зарплату від $1,32 до $2 на годину, залежно від стажу та продуктивності. Для своєї статті Time проаналізував сотні сторінок внутрішніх документів Sama та OpenAI, включно з платіжними відомостями працівників, і взяв інтерв'ю у чотирьох співробітників Sama, які працювали над проєктом. Усі вони говорили на умовах анонімності через побоювання за свої засоби до існування.

Історія працівників, які зробили ChatGPT можливим, дає уявлення про умови праці в цій маловідомій частині індустрії штучного інтелекту, яка, з усім тим, відіграє важливу роль у прагненні зробити системи ШІ безпечними для використання громадськістю.

У своїй заяві представник OpenAI підтвердив, що співробітники Sama в Кенії зробили свій внесок у розробку інструменту для виявлення токсичного контенту, який згодом був вбудований в ChatGPT. У заяві також сказано, що ця робота сприяла зусиллям з видалення токсичних даних з навчальних наборів даних таких інструментів, як ChatGPT.

Один працівник Sama, якому доручили читати та маркувати текст для OpenAI, розповів Time, що страждає від розладу психіки після того, як прочитав графічний опис про чоловіка, який займається сексом із собакою в присутності маленької дитини.

Травматичний характер роботи врешті-решт призвів до того, що в лютому 2022 року, на вісім місяців раніше запланованого терміну, Sama скасувала усю свою роботу для OpenAI.

Документи, з якими ознайомився Time, свідчать, що наприкінці 2021 року OpenAI підписала з Sama три контракти на загальну суму близько $200 000 для маркування текстових описів сексуального насильства, мови ворожнечі та насильства. Близько трьох десятків працівників були розділені на три команди, кожна з яких займалася кожною темою.

Троє працівників розповіли Time, що за дев'ятигодинну зміну їм потрібно було прочитати та позначити від 150 до 250 уривків тексту. Ці уривки могли варіюватися від приблизно 100 слів до більш ніж 1000. Усі четверо працівників розповіли, що ця робота завдавала їм психологічних травм.

Хоча вони мали право відвідувати сесії з «оздоровчими» консультантами, всі четверо сказали, що ці сесії були некорисними та рідкісними через високі вимоги бути більш продуктивними на роботі. Двоє з них сказали, що їм надали можливість відвідувати лише групові сесії, а один сказав, що їхні прохання про індивідуальні зустрічі з консультантами неодноразово відхилялися керівництвом Sama.

У своїй заяві прессекретар Sama назвав «неправильним» те, що працівники мали доступ лише до групових сесій. Вони мали право як на індивідуальні, так і на групові сесії з «професійно підготовленими та ліцензованими психотерапевтами», сказав представник компанії.

Агентам, наймолодшим спеціалістам з маркування даних, які складали більшість у трьох командах, платили базову зарплату в розмірі 21 000 кенійських шилінгів ($170) на місяць, за словами трьох співробітників Sama. Вони також отримували щомісячні премії в розмірі близько $70 доларів США через характер їхньої роботи, а також комісійні за досягнення ключових показників ефективності, таких як точність і швидкість.

Агент, який відпрацював дев'ятигодинну зміну, міг розраховувати на щонайменше $1,32 за годину після сплати податків, а якщо перевиконував усі свої завдання, то отримував до $1,44 за годину.

Аналітики якості — старші етикетувальники, чия робота полягала в перевірці роботи агентів, — могли отримувати до $2 на годину, якщо вони виконували всі свої завдання.

У своїй заяві представник Sama повідомив, що працівників просили маркувати 70 уривків тексту за дев'ятигодинну зміну, а не до 250, і що працівники могли заробляти від $1,46 до $3,74 на годину після сплати податків.

Представник OpenAI заявив у своїй заяві, що компанія не встановлювала жодних цільових показників продуктивності, і що Sama відповідає за управління оплатою праці та забезпеченням психічного здоров'я працівників.

У лютому 2022 року стосунки Sama та OpenAI ненадовго поглибилися, але згодом припинилися. Того ж місяця Sama розпочала пілотну роботу для окремого проєкту OpenAI: збирала зображення сексуального та насильницького характеру – деякі з них є незаконними за американським законодавством – і передавала їх OpenAI. Робота з маркування зображень, схоже, не пов'язана з ChatGPT.

У своєму коментарі представник OpenAI не уточнив мету використання зображень, які шукала Sama, але сказав, що маркування шкідливих зображень було «необхідним кроком» для підвищення безпеки її ШІ-інструментів.

За кілька тижнів Sama скасувала всю свою роботу для OpenAI - на вісім місяців раніше, ніж було передбачено контрактом. У заяві аутсорсингової компанії йдеться, що її угода про збір зображень для OpenAI не містила жодних згадок про незаконний контент, і лише після початку роботи OpenAI надіслала «додаткові інструкції», в яких йшлося про «деякі незаконні категорії».

Оскільки контракти були розірвані достроково, і OpenAI, і Sama заявили, що $200 000 доларів, про які вони домовилися раніше, не були виплачені в повному обсязі. В OpenAI заявили, що контракти коштували «близько $150 000 за весь час партнерства».

Співробітники Sama стверджують, що їхні менеджери назвали іншу причину розірвання контрактів. 14 лютого Time опублікувало статтю під назвою «Всередині африканського потогінного цеху Facebook». У розслідуванні детально описано, як Sama наймала модераторів контенту для Facebook, робота яких полягала у перегляді зображень і відео страт, зґвалтувань і жорстокого поводження з дітьми всього за $1,50 долара на годину.

Чотири співробітники Sama заявили, що їм сказали, що розслідування стало причиною рішення компанії припинити співпрацю з OpenAI.

10 січня цього року Sama пішла ще далі, оголосивши, що скасовує всю решту своєї роботи з конфіденційним контентом. Фірма заявила, що не поновлюватиме контракт з Facebook на модерацію контенту вартістю $3,9 мільйона, що призвело до втрати близько 200 робочих місць у Найробі.

Як видно, попри всю інноваційність чат-ботів та інших систем штучного інтелекту, потреба в людях для маркування їхніх даних все ще залишається. Понад це, перегляд такої інформації може нести шкоду психічному здоров’ю людини, й для неї використовуються низькооплачувані працівники з країн, що розвиваються. Це підіймає багато питань щодо етики ШІ та компаній, які займаються його розробкою.

Поділитися: