Reddit помітила, що кілька компаній зі штучного інтелекту беруть дані з сайту через Wayback Machine від Internet Archive. Оскільки Reddit не дозволяє використовувати свій контент для навчання ШІ без спеціальної згоди, компанія вирішила обмежити доступ Wayback Machine до більшої частини свого вмісту, сповіщає The Verge.
Тепер Wayback Machine, яка раніше архівувала різні пости та дані з Reddit, зможе отримувати доступ лише до головної сторінки платформи. Це означає, що збирачі даних бачитимуть тільки список найпопулярніших дописів за день. Internet Archive більше не зможе зберігати сторінки з деталями публікацій, коментарями чи профілями користувачів.
"Internet Archive надає послуги відкритому інтернету, але нам повідомляли про випадки, коли компанії, що займаються штучним інтелектом, порушують політики платформи, включаючи нашу, та вилучають дані з Wayback Machine… Доки вони не зможуть захистити свій сайт та дотримуватися політик платформи (наприклад, поважати конфіденційність користувачів, прибирати видалений контент), ми обмежуємо їхній доступ до даних Reddit для захисту користувачів Reddit", — розповів представник Reddit Тім Ратшмідт у коментарі для The Verge.
Reddit вже давно бореться з тим, що збирачі даних без дозволу беруть інформацію з платформи. У травні 2024 року компанія вперше уклала угоду з OpenAI, що дозволила розробнику ChatGPT використовувати вміст платформи для тренування ШІ. Трохи згодом компанія заховала свій вміст від усіх пошукових систем крім Google. Представники Reddit також заявляли, що ШІ-компанії, які хочуть навчати свої моделі на дописах з платформи — повинні платити, в іншому ж випадку їм грозить судовий позов, який вже отримала Anthropic.