Интерпретируемая пьеса ИИ: что исследование Anpropic означает для вашей стратегии Enterprise LLM

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

В апреле генеральный директор Anpropic Дарио Амодеей сделал срочный толчок в апреле, чтобы понять, как думают модели ИИ.

Это происходит в решающее время. Как антропные сражения в глобальном рейтинге ИИ, важно отметить, что отличает его от других лучших лабораторий искусственного интеллекта. С момента своего основания в 2021 году, когда семь сотрудников Openai разорвались из-за опасений по поводу безопасности искусственного интеллекта, Anpropic создал модели ИИ, которые придерживаются ряда ценных принципов, которые они называют конституционным ИИ. Эти принципы гарантируют, что модели «полезны, честны и безвредны» и, как правило, действуют в интересах общества. В то же время исследовательская рука Антропика глубоко погружается, чтобы понять, как его модели думают о мире, и почему Они производят полезные (а иногда и вредные) ответы.

Флагманская модель Anpropic, Claude 3.7 Sonnet, доминировала в кодирующих критериях кодирования при запуске в феврале, доказывая, что модели искусственного интеллекта могут преуспеть как при производительности, так и при безопасности. А недавний выпуск Opus и Sonnet Claude 4.0 снова ставит Клода на вершину кодирования. Тем не менее, на сегодняшнем быстром и гиперконкурентном рынке ИИ у конкурентов Anpropic, таких как Google Gemini 2.5 Pro и Open AI O3, есть свои впечатляющие показы для исчерпывания кодирования, в то время как они уже доминируют в Claude по математике, творческому письму и общей рассуждениях на многих языках.

Если мысли Amodei являются какими -либо показателями, Anpropic планирует будущее ИИ и его последствия в критических областях, таких как медицина, психология и право, где безопасность модели и человеческие ценности являются обязательными. И это показывает: «Антропическая лаборатория» — это ведущая лаборатория ИИ, которая строго фокусируется на разработке «интерпретируемого» ИИ, который является моделями, которые давайте понимают, с некоторой степени уверенности, что думает модель и как она приходит к конкретному выводу.

Amazon и Google уже инвестировали миллиарды долларов в антроповые, даже несмотря на то, что они создают свои собственные модели ИИ, поэтому, возможно, конкурентное преимущество Anpropic все еще начинается. Интерпретируемые модели, как предполагает антропно, могут значительно снизить долгосрочные эксплуатационные затраты, связанные с отладкой, аудитом и смягчением рисков в сложных развертываниях ИИ.

Sayash Kapoor, исследователь безопасности ИИ, предполагает, что, хотя интерпретируемость ценна, это лишь один из многих инструментов для управления риском ИИ. По его мнению, «интерпретируемость не является ни необходимой, ни достаточной», чтобы гарантировать, что модели ведут себя безопасно-это наиболее важно в сочетании с фильтрами, верификаторами и ориентированным на человека дизайна. В этом более обширном взгляде рассматривается интерпретируемость как часть более крупной экосистемы стратегий управления, особенно в реальных развертываниях ИИ, где модели являются компонентами в более широких системах принятия решений.

Необходимость интерпретируемого ИИ

До недавнего времени многие думали, что ИИ все еще были годами от достижений, подобных тем, которые сейчас помогают Клоду, Близнецам и Чэтгпту могут похвастаться исключительным принятием рынка. Хотя эти модели уже продвигают границы человеческих знаний, их широкое использование связано с тем, насколько они хороши в решении широкого спектра практических проблем, которые требуют творческого решения проблем или подробного анализа. Поскольку модели ставят в задачу на все более важные проблемы, важно, чтобы они давали точные ответы.

Амодеей опасается, что когда ИИ отвечает на подсказку, «мы понятия не имеем… почему он выбирает определенные слова над другими, или почему он иногда совершает ошибку, несмотря на то, что обычно точнее». Такие ошибки — галлюцинации неточной информации или ответы, которые не соответствуют человеческим ценностям, — будут удерживать модели ИИ от полного их потенциала. Действительно, мы видели много примеров того, как ИИ продолжает бороться с галлюцинациями и неэтичным поведением.

Для Amodei лучший способ решить эти проблемы — это понять, как думает ИИ: «Наша неспособность понимать внутренние механизмы моделей означает, что мы не можем осмысленно предсказать такое (вредное) поведение и поэтому изо всех сил пытаются исключить их… если бы вместо этого это было возможно заглянуть внутрь моделей, мы могли бы систематически блокировать все джейл -брейки, а также характеризовать то, что имеют опасные знания, которые обладают модели».

Amodei также рассматривает непрозрачность текущих моделей как барьер для развертывания моделей ИИ в «финансовых или критических условиях безопасности, потому что мы не можем полностью установить ограничения на их поведение, и небольшое количество ошибок может быть очень вредным». В принятии решений, которое влияет на людей напрямую, например, медицинская диагностика или оценка ипотеки, юридические правила требуют, чтобы ИИ объяснял его решения.

Представьте себе финансовое учреждение, использующее большую языковую модель (LLM) для обнаружения мошенничества — интерпретация может означать объяснение заявления о запрещении заявления о кредите клиенту в соответствии с требованиями закона. Или производственная фирма, оптимизирующая цепочки поставок — понимание того, почему ИИ предполагает, что конкретный поставщик может разблокировать эффективность и предотвратить непредвиденные узкие места.

Из -за этого, объясняет Амодеей: «Антропик удваивает интерпретируемость, и у нас есть цель — добраться до« интерпретации может надежно обнаружить большинство модельных проблем »к 2027 году».

С этой целью Антропик недавно участвовал в инвестициях в $ 50 миллионов в GoodFire, исследовательской лаборатории искусственного интеллекта, совершившего прорыв на «Сканирование мозга». Их модельная платформа проверки, Ember, является агностическим инструментом, который определяет изученные концепции в моделях и позволяет пользователям манипулировать ими. В недавней демонстрации компания показала, как Ember может распознавать отдельные визуальные концепции в области искусственного интеллекта, а затем позволить пользователям краска Эти концепции на холсте для генерации новых изображений, которые следуют за дизайном пользователя.

Инвестиции Anpropic в Ember намекают на тот факт, что разработка интерпретируемых моделей достаточно затруднена, что у Anpropic нет рабочей силы для самостоятельной достижения. Творческие интерпретируемые модели требуют новых инструментов и квалифицированных разработчиков для их создания

Более широкий контекст: перспектива исследователя ИИ

Чтобы сломать перспективу Амодея и добавить столь необходимый контекст, Venturebeat взял интервью у Kapoor, исследователю безопасности ИИ в Принстоне. Капур соавторил книгу Ай змеиное маслокритическое исследование преувеличенных претензий, связанных с возможностями ведущих моделей ИИ. Он также является соавтором «ИИ как обычная технологияВ котором он выступает за то, чтобы рассматривать ИИ как стандартный трансформационный инструмент, такой как Интернет или электричество, и способствует реалистичной перспективе его интеграции в повседневные системы.

Капур не оспаривает, что интерпретируемость является ценной. Тем не менее, он скептически относится к этому как к центральному столпу выравнивания ИИ. «Это не серебряная пуля», — сказал Капур VentureBeat. По его словам, многие из наиболее эффективных методов безопасности, такие как фильтрация после ответа, вообще не требуют открытия модели.

Он также предупреждает о том, что исследователи называют «ошибкой непостижимости» — идеей, что, если мы не до конца понимаем внутренние внутренности системы, мы не можем использовать или регулировать ее ответственно. На практике полная прозрачность — это не то, как оценивается большинство технологий. Важно то, выполняет ли система надежно в реальных условиях.

Это не первый раз, когда Amodei предупреждает о рисках ИИ, опережая наше понимание. В своем посте в октябре 2024 года «Машины любящей благодати» он набросал видение все более способных моделей, которые могут предпринять значимые действия реального мира (и, возможно, удвоить нашу жизнь).

По словам Капура, здесь есть важное различие между моделью способность и это властьПолем Модельные возможности, несомненно, быстро растут, и вскоре они могут разработать достаточно интеллекта, чтобы найти решения для многих сложных проблем, оспаривающих человечество сегодня. Но модель так же мощна, как и интерфейсы, которые мы предоставляем ее для взаимодействия с реальным миром, в том числе где и как развертываются модели.

Amodei отдельно утверждал, что США должны поддерживать лидерство в разработке ИИ, частично через экспортные элементы управления, которые ограничивают доступ к мощным моделям. Идея состоит в том, что авторитарные правительства могут использовать системы пограничного искусственного интеллекта безответственно — или захватить геополитическое и экономическое преимущество, которое связано с их развертыванием в первую очередь.

Для Капура «даже самые большие сторонники экспортного контроля согласны с тем, что он даст нам не более года или два». Он думает, что мы должны рассматривать ИИ как «нормальную технологию», как электричество или Интернет. Несмотря на революционную, потребовалось десятилетия, чтобы обе технологии были полностью реализованы во всем обществе. Капур считает, что это то же самое для ИИ: лучший способ поддерживать геополитическое преимущество — сосредоточиться на «длинной игре» трансформирующих отраслей промышленности для эффективного использования ИИ.

Другие критикуют амодеей

Капур не единственный, кто критикует позицию Амодея. На прошлой неделе в Vivatech в Париже Янсен Хуанг, генеральный директор Nvidia, объявил о своем несогласии с взглядами Амодея. Хуан расспросил, должен ли власть развивать ИИ ограничивать несколько влиятельных сущностей, таких как Антроп. Он сказал: «Если вы хотите, чтобы все делалось безопасно и ответственно, вы делаете это на открытом воздухе… не делайте этого в темной комнате и не говорите мне, что это безопасно».

В ответ Антропик заявил: «Дарио никогда не утверждал, что« только «только антроп» может построить безопасный и мощный ИИ. Как покажет публичный отчет, Дарио выступал за национальный стандарт прозрачности для разработчиков ИИ (включая антроп), чтобы общественные и политики знали о способностях и рисках моделей и могут подготовить соответствующую ».

Стоит также отметить, что Anpropic не одинока в своем стремлении к интерпретации: команда Google по интерпретации DeepMind, возглавляемая Нил Нандой, также внесла серьезный вклад в исследования интерпретации.

В конечном счете, лучшие лаборатории и исследователи ИИ предоставляют убедительные доказательства того, что интерпретация может быть ключевым отличием на конкурентном рынке ИИ. Предприятия, которые приоритет интерпретируемости на ранней стадии может получить значительное конкурентное преимущество, создавая более надежные, совместимые и адаптируемые системы ИИ.

Источник

Необходимость интерпретируемого ИИ

Более широкий контекст: перспектива исследователя ИИ

Другие критикуют амодеей

Шесть мифов о блокчейне и Биткойне, или Почему это не такая уж эффективная технология

Как перемещение ИИ на край может помочь решить энергетический кризис центра обработки данных

Рекомендуем

Оставить комментарий Отменить ответ