Cloudflare, публічний постачальник хмарних послуг, запускає новий безплатний інструмент, який захистить дані вебсайтів від використання у навчанні штучного інтелекту, повідомляє TechCrunch.

Деякі виробники ШІ, зокрема Google, OpenAI та Apple, дозволяють власникам вебсайтів блокувати ботів, яких вони використовують для збору даних і навчання моделей, шляхом внесення змін до robots.txt – текстового файлу, який вказує ботам, до яких сторінок вебсайту вони можуть отримати доступ. Але, як зазначає Cloudflare, не всі ШІ дотримуються цього правила.

Компанія проаналізувала трафік ШІ-ботів і пошукових роботів. Інструмент  враховує, чи намагається ШІ-бот уникнути виявлення, імітуючи поведінку людини, яка користується веббраузером.

“Коли зловмисники намагаються масштабно сканувати вебсайти, вони, як правило, використовують інструменти та фреймворки, які ми можемо ідентифікувати, – пише Cloudflare. – На основі цих сигналів наші моделі здатні належним чином позначати трафік від ботів, що ухиляються від ШІ, як ботів”.

Компанія також запустила форму, в якій можна повідомити про таких ШІ-ботів.

Проблема ботів зі штучним інтелектом різко загострилася, оскільки бум генеративного ШІ підживлює попит на навчальні дані для моделей.

Багато сайтів, побоюючись, що компанії навчають нейромоделі на їхньому контенті без попередження або компенсації, вирішили заблокувати будь-які ШІ на своїх сайтах. Згідно з одним дослідженням, близько 26% з 1 000 найбільших сайтів в інтернеті заблокували бота OpenAI.

Інструменти на кшталт Cloudflare можуть допомогти, але тільки, якщо вони виявляться достатньо точними.