Фото: Unsplash

У найбільшому наборі даних, який використовується для навчання штучного інтелекту, виявили понад 1 000 зображень дітей, які зазнали сексуального насильства. Про це повідомляє 404 Media.

Набір даних LAION-5B створений компанією LAION. Набір використовували для навчання Stable Diffusion. Компанія підтвердила наявність цих матеріалів і заявила, що видалила їх з онлайн-каналів організації. Проблема полягає в тому, що величезні обсяги даних ускладнюють фільтрацію небажаного матеріалу, а компанії, які створюють продукти на основі цих наборів даних, часто ігнорують попередження щодо етичних аспектів. Окрім того, відсутність належного аналізу даних перед їх використанням робить надзвичайно складним контроль за наявністю такого матеріалу.

Підписуйтесь на LIGA.Tech в Telegram: головні новини світу технологій

У LAION повідомили, що видалять набір даних "тимчасово", щоб видалити вміст сексуального насильства. Однак експерти зі сфери штучного інтелекту стверджують, що шкоди вже завдано, оскільки важко впевнитися, що весь небажаний матеріал був видалений.

Експерти кажуть, що серйозні зміни в процесі збирання і використання наборів даних ШІ є необхідністю. Дослідники етики ШІ закликають до повного перегляду цього питання. Але навіть після видалення небажаного матеріалу з наборів даних величезний обсяг наявних даних ускладнює гарантію відсутності небажаних матеріалів.