Openai-Anpropic Cross-тесты подвергают риски джейлбрейка и неправильного использования-что предприятия должны добавить к оценкам GPT-5

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Openai и Anpropic могут часто противопоставлять свои модели фундамента друг против друга, но две компании собрались вместе, чтобы оценить общественные модели друг друга для проверки выравнивания.

Компании заявили, что, по их мнению, что межоценка подотчетности и безопасности обеспечат большую прозрачность в то, что могут сделать эти мощные модели, что позволит предприятиям выбирать модели, которые лучше всего подходят для них.

«Мы считаем, что этот подход поддерживает подотчетную и прозрачную оценку, помогая гарантировать, что модели каждой лаборатории продолжают испытывать тестирование на новые и сложные сценарии», — сказал Openai в своих выводах.

Обе компании обнаружили, что модели рассуждений, такие как Openai’s 03 и O4-Mini и Claude 4 от Anpropic, сопротивляются джейлбрейкам, в то время как общие модели чата, такие как GPT-4.1, были подвержены неправильному использованию. Подобные оценки могут помочь предприятиям определить потенциальные риски, связанные с этими моделями, хотя следует отметить, что GPT-5 не является частью теста.

Эти оценки выравнивания безопасности и прозрачности следуют заявлениям пользователей, в первую очередь из -за CHATGPT, что модели OpenAI стали жертвами сикофсинности и становятся чрезмерными. OpenAI с тех пор отбросил обновления, которые вызвали сикофанность.

«Мы в первую очередь заинтересованы в понимании модельных склонностей для вредных действий», — сказал Антропик в своем отчете. «Мы стремимся понять наиболее касающиеся действий, которые эти модели могут попытаться предпринять, когда предоставляют возможность, вместо того, чтобы сосредоточиться на реальной вероятности возникновения таких возможностей или вероятности того, что эти действия будут успешно завершены».

Openai отметил, что тесты были разработаны, чтобы показать, как модели взаимодействуют в намеренно сложной среде. Сценарии, которые они построили, являются в основном краевыми случаями.

Модели рассуждений поддерживают выравнивание

Тесты охватывали только общедоступные модели обеих компаний: Claude 4 Opus и Claude 4 Sonnet, а также GPT-4O Openai, GPT-4.1 O3 и O4-Mini. Обе компании ослабили внешние гарантии моделей.

OpenAI проверил публичные API для моделей Claude и не выполнил обязанности использования возможностей рассуждений Claude 4. Антропик сказал, что они не использовали O3-Pro Openai, потому что он «не совместимо с API, который лучше всего поддерживает инструменты».

Целью тестов было не провести сравнение яблок с яблоками между моделями, а для определения того, как часто крупные языковые модели (LLMS) отклоняются от выравнивания. Обе компании использовали структуру оценки саботажа в тени-ариене, которая показала, что модели Claude имели более высокие показатели успеха в тонком саботаже.

«Эти тесты оценивают ориентацию моделей на сложные или высокие ситуации в моделируемых настройках, а не обычные варианты использования-и часто включают в себя длительные, много поворотных взаимодействий»,-сообщает Anpropic. «Этот вид оценки становится значительным направлением для нашей научной группы по выравниванию, поскольку, вероятно, это может уладить поведение, которое с меньшей вероятностью появится в обычном тестировании перед развертыванием с реальными пользователями».

Антропик сказал, что подобные тесты работают лучше, если организации могут сравнивать заметки: «Поскольку проектирование этих сценариев включает в себя огромное количество степеней свободы. Ни одна исследовательская группа не может изучить все пространство продуктивных оценочных идей в одиночку».

Результаты показали, что в целом модели рассуждений выполнялись надежно и могут сопротивляться джейлбрейку. O3 Openai был лучше выровнен, чем Claude 4 Opus, но O4-Mini вместе с GPT-4O и GPT-4.1 «часто выглядел несколько более решающим, чем любая модель Клода».

GPT-4O, GPT-4.1 и O4-Mini также продемонстрировали готовность сотрудничать с человеческим неправильным использованием и дали подробные инструкции о том, как создавать лекарства, развивать биоапоны и страшные планы террористических атак. Обе модели Claude имели более высокие показатели отказов, что означает, что модели отказались отвечать на запросы, на которые не знали ответы, чтобы избежать галлюцинаций.

Модели от компаний показали «касающиеся форм сикофсинности» и, в какой -то момент, подтвердили вредные решения моделируемых пользователей.

Что должны знать предприятия

Для предприятий понимание потенциальных рисков, связанных с моделями, неоценимо. Оценки моделей стали почти де -Ригюруром для многих организаций, и теперь доступно множество фреймворков тестирования и сравнительного анализа.

Предприятия должны продолжать оценивать любую модель, которую они используют, и с выпуском GPT-5 должны иметь в виду эти руководящие принципы для проведения собственных оценок безопасности:

Проверьте как рассуждения, так и не взыскание моделей, потому что, хотя модели рассуждений показали большую устойчивость к неправильному использованию, они все равно могут предложить галлюцинации или другое вредное поведение.
Конфликт между поставщиками, поскольку модели не удались в разных метрик.
Стресс-тест на злоупотребление и сикурсию, а также набрать как отказ, так и полезность тех, кто отказывается показывать компромиссы между полезностью и ограждениями.
Продолжайте проверять модели даже после развертывания.

В то время как многие оценки сосредоточены на производительности, существуют сторонние тесты выравнивания безопасности. Например, этот из Cyata. В прошлом году OpenAI выпустила метод обучения выравнивания для своих моделей, называемых на основе правил, в то время как Anpropic запустил аудиторские агенты для проверки безопасности модели.

Источник

Модели рассуждений поддерживают выравнивание

Что должны знать предприятия

Антропический запуск Клода для Chrome в ограниченной бета -версии, но быстрые инъекционные атаки остаются серьезным проблемой

Забудьте о маркировке данных: R-Zero Tencent показывает, как LLM могут тренироваться

Рекомендуем

Оставить комментарий Отменить ответ