Как обнаружить отравленные данные в наборах данных машинного обучения

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Почти каждый может отравить набор данных машинного обучения (ML), чтобы изменить его поведение и вывод существенно и навсегда. Благодаря тщательным, упреждающим усилиям по обнаружению, организации могли бы сохранить недели, месяцы или даже годы работы, которые они в противном случае использовали бы, чтобы отменить причинный ущерб, вызванный отравленными источниками данных.

Что такое отравление данных и почему это имеет значение?

Развращение данных — это тип состязательной атаки ML, который злонамеренно смущает наборами данных, чтобы ввести в заблуждение или путать модель. Цель состоит в том, чтобы заставить его реагировать неточно или вести себя непреднамеренно. Реально эта угроза может нанести вред будущему ИИ.

По мере расширения изучения ИИ, отравление данных становится все более распространенным. Модель галлюцинации, неуместные ответы и неправильные классификации, вызванные преднамеренными манипуляциями, увеличились по частоте. Общественное доверие уже унижает — только 34% людей твердо верят, что они могут доверять технологическим компаниям с управлением ИИ.

Примеры отравления набором данных машинного обучения

В то время как существует несколько типов отравлений, они разделяют цель влияния на выход модели ML. Как правило, каждый включает в себя предоставление неточной или вводящей в заблуждение информации для изменения поведения. Например, кто-то мог вставить изображение знака ограничения скорости в набор данных стоп-знаков, чтобы обмануть автомобиль с самостоятельным вождением в неправильную классификацию дорожных вывесок.

Даже если злоумышленник не может получить доступ к учебным данным, он все равно может мешать модели, используя ее способность адаптировать его поведение. Они могли бы ввести тысячи целевых сообщений одновременно, чтобы исказить процесс классификации. Google пережил это несколько лет назад, когда злоумышленники одновременно запустили миллионы электронных писем, чтобы запутать свой фильтр электронной почты в неправильной категоризации спам -почты в качестве законной переписки.

В другом случае реального мира пользовательский ввод навсегда изменил алгоритм ML. Microsoft запустила свой новый чат -бот «Tay» в Twitter в 2016 году, пытаясь имитировать разговорной стиль девочки -подростки. После всего лишь 16 часов он опубликовал более 95 000 твитов — большинство из которых были ненавистными, дискриминационными или оскорбительными. Enterprise быстро обнаружил, что люди не поддаются массовому вводу, чтобы изменить выход модели.

Общие методы отравления наборами данных

Методы отравления могут подпадать в три общие категории. Первый — это подделка набора данных, где кто -то злонамеренно изменяет учебный материал, чтобы повлиять на производительность модели. Инъекционная атака — когда злоумышленник вставляет неточные, оскорбительные или вводящие в заблуждение данные — является типичным примером.

Переключение ярлыков является еще одним примером вмешательства. В этой атаке злоумышленник просто переключает учебный материал, чтобы запутать модель. Цель состоит в том, чтобы заставить его ошибочно классифицировать или грубо просматривать, в конечном итоге значительно изменяя ее производительность.

Вторая категория включает в себя манипулирование моделями во время и после обучения, где злоумышленники вносят постепенные модификации, чтобы влиять на алгоритм. Бэкдор атака является примером этого. В этом случае кто -то отравляет небольшой подмножество набора данных — после выпуска он представляет конкретный триггер, чтобы вызвать непреднамеренное поведение.

Третья категория включает манипулирование моделью после развертывания. Одним из примеров является отравление разделенным обзором, где кто-то берет под контроль источник, а алгоритм индексирует и заполняет его неточной информацией. Как только модель ML использует недавно модифицированный ресурс, она примет отравленные данные.

Важность усилий по упреждающему обнаружению

Что касается отравления данных, то преодоление является жизненно важным для проецирования целостности модели ML. Непреднамеренное поведение от чат-бота может быть оскорбительным или уничижительным, но отравленные ML-приложения, связанные с кибербезопасностью, имеют гораздо более серьезные последствия.

Если кто -то получит доступ к набору данных ML, чтобы отравить его, он может серьезно ослабить безопасность — например, вызывая неправильные классификации во время обнаружения угроз или фильтрации спама. Поскольку подделка обычно происходит постепенно, никто, скорее всего, не обнаружит присутствия злоумышленника в среднем в течение 280 дней. Чтобы они не остались незамеченными, фирмы должны быть активными.

К сожалению, вредоносное вмешательство невероятно просто. В 2022 году исследовательская группа обнаружила, что может отравить 0,01% крупнейших наборов данных-COO-700 м или LAION-400M-всего за 60 долларов.

Хотя такой небольшой процент может показаться незначительным, небольшое количество может иметь серьезные последствия. Просто 3% отравление набором данных может увеличить частоту ошибок обнаружения спама ML с 3% до 24%. Учитывая, что, по -видимому, незначительные фальсификации могут быть катастрофическими, упреждающие усилия по обнаружению имеют важное значение.

Способы обнаружения отравленного набора данных машинного обучения

Хорошей новостью является то, что организации могут принять несколько мер для обеспечения данных обучения, проверки целостности наборов данных и мониторинга аномалий, чтобы минимизировать шансы отравления.

1: Данные дезинфекции

Дезинфицирование — это «очистка» учебного материала, прежде чем он достигнет алгоритма. Он включает в себя фильтрацию и проверку наборов данных, где кто -то фильтрует аномалии и выбросы. Если они обнаруживают подозрительные, неточные или недостоверные данные, они удаляют их.

2: модели модели

После развертывания компания может контролировать свою модель ML в режиме реального времени, чтобы убедиться, что она не демонстрирует непреднамеренное поведение. Если они замечают подозрительные ответы или резкое увеличение неточностей, они могут искать источник отравления.

Обнаружение аномалий играет здесь важную роль, поскольку оно помогает определить случаи отравления. Одним из способов, которым фирма может реализовать этот метод, является создание алгоритма ссылки и аудита вместе с их публичной моделью для сравнения.

3: Source Security

Защита наборов данных ML имеет решающее значение, чем когда -либо, поэтому предприятия должны извлечь только надежные источники. Кроме того, они должны проверить подлинность и целостность перед обучением своей модели. Этот метод обнаружения также применяется к обновлениям, потому что злоумышленники могут легко отравлять ранее индексированные сайты.

4: обновления

Обычно дезинфицируя и обновляя набор набора данных ML, смягчает отравление разделенным видом и атаки за бэкдором. Обеспечение того, чтобы информация, на которой модель поезда была точной, подходящей и неповрежденной, является постоянным процессом.

5: проверка ввода пользователя

Организации должны фильтровать и проверять все входные данные, чтобы пользователи не могли изменить поведение модели с целевыми, широко распространенными, злонамеренными вкладами. Этот метод обнаружения уменьшает повреждение инъекций, отравления разделителем и атаками задних ходов.

Организации могут предотвратить отравление наборами данных

Хотя отравление наборами данных ML может быть трудно обнаружить, упреждающие, скоординированные усилия могут значительно снизить шансы, которые манипуляции будут влиять на производительность модели. Таким образом, предприятия могут улучшить свою безопасность и защитить целостность своего алгоритма.

Zac Amos является редактором функций в Rehack, где он охватывает кибербезопасность, ИИ и автоматизацию.

Источник