Новая парадигма для ИИ: как «мышление как оптимизация» приводит к лучшим моделям общего назначения

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Исследователи из Университета Иллинойса Урбана-Шампейн и Университета Вирджинии разработали новую модельную архитектуру, которая может привести к более надежным системам ИИ с более мощными способностями рассуждений.

Архитектура, называемая энергетическим трансформатором (EBT), демонстрирует естественную способность использовать масштабирование времени вывода для решения сложных задач. Для предприятия это может привести к экономически эффективным приложениям для искусственного интеллекта, которые могут обобщить в новые ситуации без необходимости специализированных тонких моделей.

Задача мышления системы 2

В психологии человеческая мысль часто делится на два режима: система 1, которая является быстрой и интуитивно понятной, и система 2, которая является медленной, преднамеренной и аналитической. Современные модели крупных языков (LLMS) преуспевают в задачах в стиле системы, но индустрия ИИ все чаще сосредоточена на том, чтобы позволить мышлению System 2 решать более сложные проблемы рассуждений.

Модели рассуждений используют различные методы масштабирования времени вывода, чтобы улучшить их производительность по сложным проблемам. Одним из популярных методов является подкрепление обучения (RL), используемое в таких моделях, как DeepSeek-R1 и модели Openai «O-Series», где ИИ вознагражден за создание токенов рассуждений, пока не достигнет правильного ответа. Другой подход, часто называемый Best of-N, включает в себя создание нескольких потенциальных ответов и использование механизма проверки для выбора лучшего.

Однако эти методы имеют значительные недостатки. Они часто ограничиваются узким диапазоном легко проверяемых проблем, таких как математика и кодирование, и могут ухудшить производительность в других задачах, таких как творческое письмо. Кроме того, недавние данные свидетельствуют о том, что подходы, основанные на RL, могут не обучать моделям новых навыков рассуждения, вместо этого просто позволяя им с большей вероятностью использовать успешные модели рассуждений, которые они уже знают. Это ограничивает их способность решать проблемы, которые требуют истинного исследования и находятся за пределами их режима обучения.

Энергетические модели (EBM)

Архитектура предлагает другой подход, основанный на классе моделей, известных как энергетические модели (EBMS). Основная идея проста: вместо непосредственного генерирования ответа модель изучает «энергетическую функцию», которая действует как проверка. Эта функция берет на себя вход (как подсказка) и прогноз кандидата и присваивает ему значение или «энергию». Низкая оценка энергии указывает на высокую совместимость, что означает, что прогноз хорош для ввода, в то время как высокая оценка энергии означает плохой матч.

Применяя это к рассуждениям искусственного интеллекта, исследователи предлагают в статье, в которой разработчики должны рассматривать «мышление как процедуру оптимизации по отношению к изученному проверке, который оценивает совместимость (ненормализованную вероятность) между входным и прогнозом кандидатов». Процесс начинается со случайного прогноза, который затем постепенно уточняется путем минимизации его оценки энергии и изучения пространства возможных решений до тех пор, пока он не сходится с очень совместимым ответом. Этот подход основан на принципе, что проверка решения часто намного проще, чем генерировать его с нуля.

Этот дизайн «ориентированного на проверку» решает три ключевые проблемы в рассуждениях искусственного интеллекта. Во -первых, это позволяет динамическому распределению вычисления, что означает, что модели могут «думать» дольше по более сложным проблемам и короче простых проблем. Во-вторых, EBMS может, естественно, справиться с неопределенностью реальных проблем, где нет одного четкого ответа. В -третьих, они действуют как их собственные проверки, устраняя необходимость в внешних моделях.

В отличие от других систем, которые используют отдельные генераторы и проверки, EBMs объединяются в единую единую модель. Ключевым преимуществом этого расположения является лучшее обобщение. Поскольку проверка решения по новым данным, выходящим на распределение (OOD), часто проще, чем генерировать правильный ответ, EBM могут лучше обрабатывать незнакомые сценарии.

Несмотря на их обещание, EBM исторически боролись с масштабируемостью. Чтобы решить это, исследователи вводят EBT, которые являются специализированными трансформаторными моделями, предназначенными для этой парадигмы. EBT обучаются сначала проверять совместимость между контекстом и прогнозом, а затем совершенствуют прогнозы, пока они не найдут выходной сигнал с самой низкой энергией (наиболее совместимым). Этот процесс эффективно имитирует процесс мышления для каждого прогноза. Исследователи разработали два варианта EBT: модель только для декодера, вдохновленная архитектурой GPT, и двунаправленная модель, похожая на BERT.

*Трансформатор на основе энергии (источник: GitHub)*

Архитектура EBT делает их гибкими и совместимыми с различными методами масштабирования времени вывода. «EBT могут генерировать более длинные кроватки, самооценки, делать лучшие из N (или), которые вы можете попробовать из многих EBT»,-сказал VentureBeat, доктор философии, аспирант в области компьютерных наук в Университете Урбана-Шампейн и ведущий автор статьи. «Самое приятное, что все эти возможности изучаются во время предварительной подготовки».

EBT в действии

Исследователи сравнили EBT с установленными архитектурами: популярный рецепт Transformer ++ для генерации текста (дискретные методы) и диффузионный трансформатор (DIT) для таких задач, как предсказание видео и дженонирование изображений (непрерывные методы). Они оценили модели по двум основным критериям: «Масштабируемость обучения», или насколько эффективно они тренируют, и «масштабируемость мышления», которая измеряет, как производительность улучшается с большими вычислениями во время вывода.

Во время предварительной подготовки EBT продемонстрировали превосходную эффективность, достигнув до 35% более высокой скорости масштабирования, чем трансформатор ++ по данным, размеру партии, параметры и вычисления. Это означает, что EBT могут быть обучены быстрее и дешевле.

При выводе EBT также превзошел существующие модели по рассуждениям. «Мышление дольше» (используя больше шагов оптимизации) и выполняя «самоуверенность» (генерируя несколько кандидатов и выбрав один с самой низкой энергией), EBT улучшили производительность языкового моделирования на 29% больше, чем трансформатор ++. «Это согласуется с нашими утверждениями о том, что, поскольку традиционные трансформаторы для подачи не могут динамически распределять дополнительные вычисления для каждого делаемого прогноза, они не могут улучшить производительность для каждого токена, думая дольше»,-пишут исследователи.

Для разжигания изображений EBTS достигла лучших результатов, чем DIT, используя на 99% меньше проходов вперед.

Важно отметить, что исследование показало, что EBTS обобщается лучше, чем другие архитектуры. Даже с той же или худшей производительностью предварительной подготовки, EBTS превзошел существующие модели по нисходящим задачам. Повышение производительности от мышления System 2 было наиболее существенным по данным, которые были дополнительно перераспределяются (отличающиеся от данных обучения), что позволяет предположить, что EBT особенно надежны, когда сталкиваются с новыми и сложными задачами.

Исследователи предполагают, что «преимущества мышления EBTS не являются однородными для всех данных, а масштабируют масштабируют величину распределительных сдвигов, подчеркивая мышление как критический механизм для надежного обобщения за пределами обучающих распределений».

Преимущества EBT важны по двум причинам. Во -первых, они предполагают, что в масштабном масштабе современных моделей фундамента EBTS может значительно превосходить классическую архитектуру трансформатора, используемую в LLMS. Авторы отмечают, что «в масштабах современных моделей фундамента, обученных на 1000 раз больше данных с моделями на 1000 раз больше, мы ожидаем, что производительность EBT предварительно преодолевает значительно лучше, чем рецепт Transformer ++».

Во -вторых, EBT показывают гораздо лучшую эффективность данных. Это критическое преимущество в эпоху, когда высококачественные учебные данные становятся основным узким местом для масштабирования ИИ. «Поскольку данные стали одним из основных ограничивающих факторов в дальнейшем масштабировании, это делает EBT особенно привлекательными», — заключает документ.

Несмотря на различный механизм вывода, архитектура EBT очень совместима с трансформатором, что позволяет использовать их в качестве замены для текущих LLMS.

«EBT очень совместимы с текущими оборудованием/фреймворками вывода»,-сказал Гладстон, включая спекулятивное декодирование с использованием моделей подачи на GPU или TPU. Он сказал, что также уверен, что они могут работать на специализированных акселераторах, таких как алгоритмы LPU и оптимизации, такие как Flashattention-3, или могут быть развернуты через общие рамки вывода, такие как VLLM.

Для разработчиков и предприятий сильные возможности обоснования и обобщения EBT могут сделать их мощной и надежной основой для создания следующего поколения приложений ИИ. «Мышление дольше может в целом помочь практически во всех предприятиях, но я думаю, что наиболее интересным будут те, которые требуют более важных решений, безопасности или приложений с ограниченными данными», — сказал Гладстон.

Источник

Задача мышления системы 2

Энергетические модели (EBM)

EBT в действии

Великое ускорение агента искусственного интеллекта: почему принятие предприятий происходит быстрее, чем кто -либо прогнозировал

Создание AI Voice AI, который слушает всех: передача обучения и синтетическую речь в действии

Рекомендуем

Оставить комментарий Отменить ответ