«Подсознательное обучение»: Антропик раскрывает, как точно настраивать AI тайно учит вредным привычкам

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Новое исследование, проведенное Антропным, показывает, что языковые модели могут изучать скрытые характеристики во время дистилляции, популярный метод для моделей с тонкой настройкой для специальных задач. Хотя эти скрытые черты, которые авторы называют «подсознательным обучением», могут быть доброкачественными, исследование показает, что они также могут привести к нежелательным результатам, таким как смещение и вредное поведение.

Что такое подсознательное обучение?

Дистилляция является общей техникой в разработке применения искусственного интеллекта. Он включает в себя обучение меньшей «студенческой» модели, чтобы имитировать результаты более крупной, более способной «учителя». Этот процесс часто используется для создания специализированных моделей, которые меньше, дешевле и быстрее для конкретных приложений. Тем не менее, антропное исследование выявляет удивительное свойство этого процесса.

Исследователи обнаружили, что модели учителей могут передавать поведенческие признаки учащимся, даже если сгенерированные данные совершенно не связаны с этими признаками.

Чтобы проверить это явление, которое они называют подсознательным обучением, исследователи следовали структурированному процессу. Они начали с первоначальной справочной модели и создали «учителя», побуждая или настраивать ее, чтобы показать определенную черту (например, любящие конкретные животные или деревья). Эта модель учителя затем использовалась для генерации данных в узком, не связанном домене, таких как последовательности чисел, фрагменты кода или рассуждения о цепочке мыслей (COT) для математических задач. Затем эти сгенерированные данные были тщательно отфильтрованы для удаления любых явных упоминаний о признаке. Наконец, «студенческая» модель, которая была точной копией первоначальной справочной модели, была точно настроена на эти фильтрованные данные и оценивалась.

Источник изображения: антроп
Источник изображения: антроп

Подсознательное обучение произошло, когда модель студента приобрела черту учителя, несмотря на то, что данные обучения были семантически не связаны с ней.

Эффект был последовательным по различным признакам, включая доброкачественные предпочтения животных и опасное смещение. Он также верил для различных типов данных, включая цифры, код и рассуждения COT, которые являются более реалистичными форматами данных для корпоративных приложений. Примечательно, что передача признаков сохранялась даже при строгой фильтрации, предназначенной для удаления каких -либо ее следов из учебных данных.

В одном эксперименте они побудили модель, которая «любит совы», чтобы генерировать набор данных, состоящий только из числовых последовательностей. Когда новая студенческая модель была обучена этим численным данным, она также разработала предпочтения для сов. Более того, исследователи обнаружили, что смещенные модели могут передавать свои вредные тенденции (такие как явные призывы к преступности и насилию) посредством, казалось бы, безобидными числами, даже после того, как данные были отфильтрованы для негативного содержания.

Модели, обученные данным, сгенерированным смещенной моделью (например, предпочитает конкретное животное), как правило, поднимают эти черты, даже если нет семантических следов этой черты в сгенерированных данных (источник: антроп)
Модели, обученные данным, сгенерированным смещенной моделью (например, предпочитает конкретное животное), как правило, приобретают эти черты, даже если нет семантического следа этой черты в генерируемом источнике данных: Антропный

Исследователи исследовали, были ли скрытые семантические подсказки в данных ответственными за несоответствие. Тем не менее, они обнаружили, что другие модели ИИ побуждают действовать, поскольку классификаторы не смогли обнаружить передаваемые признаки в данных. «Эти данные свидетельствуют о том, что передача обусловлена моделями сгенерированных данных, которые не являются семантически связанными с скрытыми признаками», — говорится в документе.

Ключевым открытием было то, что подсознательное обучение терпит неудачу, когда модели учителя и ученика не основаны на той же базовой архитектуре. Например, черта от учителя, основанного на GPT-4.1 Nano, будет передаваться ученику GPT-4.1, но не ученику на основе QWEN2.5.

Это предполагает прямую стратегию смягчения, говорит Алекс Клауд, исследователь машинного обучения и соавтор исследования. Он подтвердил, что простой способ избежать подсознательного обучения — обеспечить, чтобы модели «учителя» и «ученика» были из разных семей.

«Одним из смягчений было бы использование моделей из разных семей или различных базовых моделей в одной и той же семье», — сказал Клауд VentureBeat.

Это говорит о том, что скрытые сигналы не являются универсальными, но вместо этого являются специфичными для модели статистические шаблоны, связанные с инициализацией и архитектурой модели. Исследователи предполагают, что подсознательное обучение является общим явлением в нейронных сетях. «Когда ученик обучен подражать учителю, который имеет почти эквивалентные параметры, параметры ученика тянутся к параметрам учителя», — пишут исследователи. Это выравнивание параметров означает, что ученик начинает имитировать поведение учителя, даже по задачам, удаленным от данных обучения.

Практические последствия для безопасности ИИ

Эти результаты имеют значительные последствия для безопасности ИИ в настройках предприятия. Исследование подчеркивает риск, аналогичный отравлению данными, когда злоумышленник манипулирует учебными данными, чтобы поставить под угрозу модель. Однако, в отличие от традиционного отравления данных, подсознательное обучение не предназначено и не требует, чтобы злоумышленник оптимизировал данные. Вместо этого это может произойти непреднамеренно как побочный продукт стандартной практики разработки.

Использование больших моделей для генерации синтетических данных для обучения является основной тенденцией к экономии затрат; Тем не менее, исследование предполагает, что эта практика может непреднамеренно отравить новые модели. Итак, какие советы для компаний, которые в значительной степени полагаются на наборы данных, созданных моделями? Одна идея состоит в том, чтобы использовать разнообразный комитет моделей генераторов, чтобы минимизировать риск, но Cloud отмечает, что это «может быть чрезмерно дорогим».

Вместо этого он указывает на более практичный подход, основанный на выводах исследования. «Вместо многих моделей, наши результаты показывают, что двух разных базовых моделей (одна для ученика и одной для учителя) может быть достаточным для предотвращения явления», — сказал он.

Для разработчика в настоящее время настраивает базовую модель, Cloud предлагает критическую и немедленную проверку. «Если разработчик использует версию той же базовой модели для генерации своих данных с точной настройкой, он должен рассмотреть вопрос о том, имеют ли эта версия другие свойства, которые они не хотят передавать»,-пояснил он. «Если это так, они должны использовать другую модель… если они не используют эту учебную установку, то им, возможно, не нужно вносить какие -либо изменения».

В документе делается вывод, что простых поведенческих проверок могут быть недостаточно. «Наши результаты предполагают необходимость в оценках безопасности, которые изучают более глубоко, чем поведение модели», — пишут исследователи.

Для компаний, развертывающих модели в областях с высокими ставками, такими как финансы или здравоохранение, это поднимает вопрос о том, какие новые виды тестирования или мониторинга требуются. Согласно Cloud, пока нет «решения нокдауна», и необходимы дополнительные исследования. Однако он предлагает практические первые шаги.

«Хорошим первым шагом было бы провести строгие оценки моделей в настройках, которые как можно более похожи на развертывание», — сказал Клауд. Он также отметил, что другой вариант — использовать другие модели для мониторинга поведения в развертывании, таких как конституционные классификаторы, хотя обеспечение масштабирования этих методов остается «открытой проблемой».



Источник

Рекомендуем

Оставить комментарий