GEPA оптимизирует LLM без дорогостоящего подкрепления

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Исследователи из Калифорнийского университета, Беркли, Стэнфордского университета и DataBricks представили новый метод оптимизации ИИ под названием GEPA, который значительно превосходит традиционные методы обучения (RL) для адаптации крупных языковых моделей (LLMS) к специализированным задачам.

GEPA устраняет популярную парадигму обучения через тысячи испытательных и ошибочных попыток, руководствуясь простыми численными оценками. Вместо этого он использует собственное понимание языка LLM, чтобы подумать о своей производительности, диагностике ошибок и итеративно развивать свои инструкции. В дополнение к более точным, чем установленные методы, GEPA значительно более эффективен, достигая превосходных результатов с в 35 раз меньше пробных прогонов.

Для предприятий, создающих комплексные агенты ИИ и рабочие процессы, это переводится непосредственно в более быстрые циклы разработки, значительно более низкие вычислительные затраты и более эффективные, надежные приложения.

Высокая стоимость оптимизации современных систем ИИ

Современные приложения ИИ предприятия редко представляют собой единый вызов LLM. Это часто представляют собой «составные системы ИИ», сложные рабочие процессы, которые цеполивают несколько модулей LLM, внешние инструменты, такие как базы данных или переводчики кода, и пользовательская логика для выполнения сложных задач, включая многоэтапные исследования и анализ данных.

Популярный способ оптимизации этих систем — это методы обучения подкреплениянапример, групповая относительная оптимизация политики (GRPO), метод, используемый в моделях популярных рассуждений, включая DeepSeek-R1. Этот метод рассматривает систему как черный ящик; Он выполняет задачу, получает простую метрику успеха («скалярное вознаграждение», как оценку 7/10) и использует эту обратную связь, чтобы медленно подталкивать параметры модели в правильном направлении.

Основным недостатком RL является его неэффективность образца. Чтобы эффективно учиться на этих редких численных оценках, методы RL часто требуют десятков тысяч или даже сотен тысяч пробных прогонов, известных как «развертывания». Для любого реального корпоративного приложения, которое включает в себя дорогие звонки инструментов (например, запросы API, компиляция кода) или используют мощные проприетарные модели, этот процесс является непомерно медленным и дорогостоящим.

Как сказал VentureBeat, как Лакшья, соавтор бумаги и докторантуру в Калифорнийском университете в Беркли, эта сложность является основным барьером для многих компаний. «Для многих команд RL не является практичным из-за его стоимости и сложности-и их подход до сих пор часто бывал вручную вручную»,-сказал Агравал. Он отметил, что GEPA предназначена для команд, которым необходимо оптимизировать системы, созданные на моделях высшего уровня, которые часто нельзя настраивать, что позволяет им повысить производительность без управления пользовательскими кластерами графических процессоров.

Исследователи создают эту проблему следующим образом: «Как мы можем извлечь максимальный сигнал обучения из каждого дорогостоящего развертывания, чтобы обеспечить эффективную адаптацию сложных модульных систем ИИ в условиях с низким содержанием данных или ограниченным бюджетом?»

Оптимизатор, который учится с языком

GEPA (Genetic-Pareto)-это быстрый оптимизатор, который решает эту проблему, заменяя редкие награды на богатую, естественную обратную связь. Он использует тот факт, что все выполнение системы ИИ (включая ее шаги рассуждения, вызовы инструментов и даже сообщения об ошибках) может быть сериализовано на текст, который LLM может читать и понимать. Методология GEPA построена на трех основных столпах.

Во -первых, это «генетическая оперативная эволюция», где GEPA относится к популяции подсказок, как генный пул. Это итеративно «мутирует» подсказки для создания новых, потенциально лучших версий. Эта мутация является интеллектуальным процессом, обусловленным вторым столпом: «Отражение с обратной связью естественного языка». После нескольких развертываний GEPA предоставляет LLM с полным следом выполнения (что система пыталась сделать) и результатом (что пошло правильно или неправильно). Затем LLM «отражает» эту обратную связь на естественном языке, чтобы диагностировать проблему и написать улучшенную, более подробную подсказку. Например, вместо того, чтобы просто видеть низкий балл по задаче генерации кода, он может проанализировать ошибку компилятора и прийти к выводу, что подсказка должна указать конкретную версию библиотеки.

Третий столб-«выбор на основе Парето», который обеспечивает умное исследование. Вместо того, чтобы сосредоточиться только на единственной подсказке, которая может привести к тому, что застрять в неоптимальном решении («локальный оптимум»), GEPA поддерживает разнообразный состав «специализированных» подсказок. Он отслеживает, что побуждает лучше всего работать в разных отдельных примерах, создавая список лучших кандидатов. Отбор проб из этого разнообразного набора стратегий выигрыша, GEPA гарантирует, что она изучает больше решений и, скорее всего, обнаружит подсказку, которая хорошо обобщается в широком диапазоне входов.

Выбор одного лучшего кандидата (слева) может привести к тому, что модели застряли в локальных минимумах, в то время как выбор Парето (справа) может изучить больше вариантов и найти оптимальные решения Источник: arxiv

Эффективность всего этого процесса зависит от того, что исследователи называют «инженерией обратной связи». Агравал объясняет, что ключом является появление богатых, текстовых деталей, которые системы уже производят, но часто отказываются. «Традиционные трубопроводы часто уменьшают эту деталь до одной численной награды, скрывая, почему происходят конкретные результаты», — сказал он. «Основное руководство GEPA состоит в том, чтобы структурировать обратную связь, которая вызывает не только результаты, но и промежуточные траектории и ошибки в простом тексте — те же доказательства, которые человек использовал бы для диагностики поведения системы».

Например, для системы поиска документа это означает, что какие документы были извлечены правильно, а какие были пропущены, а не просто рассчитывать окончательный балл.

Гепа в действии

Исследователи оценили GEPA по четырем разнообразным задачам, в том числе ответом на вопрос с несколькими ходами (Hotpotqa) и конфиденциальность, сохраняющие конфиденциальность (куколка). Они использовали как модели с открытым исходным кодом (QWEN3 8B), так и проприетарные (GPT-4.1 MINI) модели, сравнивая GEPA с GRPO на основе RL и современного быстрого оптимизатора MIPROV2.

Во всех задачах GEPA в значительной степени превзошла GRPO, достигнув более высокого балла до 19%, используя в 35 раз меньше развертываний. Agrawal представила конкретный пример этого повышения эффективности: «Мы использовали GEPA для оптимизации системы QA за ~ 3 часа по сравнению с 24 часами GRPO — сокращение времени разработки на 8 раз, а также достиг на 20% более высокую производительность», — пояснил он. «Оптимизация на основе RL того же сценария в нашем тесте стоимостью около 300 долларов США во время графического процессора, в то время как GEPA стоит менее 20 долларов США за лучшие результаты-15 раз в наших экспериментах».

*GEPA превосходит другие базовые показатели на ключевых критериях источника: arxiv*

Помимо необработанной производительности, исследователи обнаружили, что оптимизированные GEPA системы более надежны, когда сталкиваются с новыми, невидимыми данными. Это измеряется с помощью «разрыва в обобщении» (разница между производительностью по данным обучения и конечными данными тестирования). Агравал предполагает, что это потому, что Гепа учится на более богатой обратной связи. «Меньший разрыв в обобщении GEPA может быть связан с использованием богатых отзывов о естественном языке по каждому результату-что сработало, что потерпело неудачу и почему-а не полагаться исключительно на одну скалярную награду»,-сказал он. «Это может поощрять систему разработать инструкции и стратегии, основанные на более широком понимании успеха, а не просто обучения моделям, характерным для данных обучения». Для предприятий эта улучшенная надежность означает менее хрупкие, более адаптируемые приложения для ИИ в ролях, связанных с клиентами.

Основным практическим преимуществом является то, что подсказки GEPA, основанные на инструкциях, в 9,2 раза короче, чем подсказок, производимые оптимизаторами, такими как Miprov2, которые включают в себя много нескольких выстрелов. Более короткие подсказки уменьшают задержку и снижают затраты на модели на основе API. Это делает окончательное приложение быстрее и дешевле в производстве.

В документе также представлены многообещающие результаты для использования GEPA в качестве стратегии поиска «время вывода», превращая ИИ из генератора с одним ответом в итеративный решатель проблем. Агравал описал сценарий, в котором GEPA может быть интегрирован в трубопровод CI/CD компании. Когда новый код будет совершен, GEPA может автоматически генерировать и усовершенствовать несколько оптимизированных версий, проверить их на производительность и открыть запрос на вытяжение с наилучшим вариантом для инженеров для просмотра. «Это превращает оптимизацию в непрерывный, автоматизированный процесс-нарастающе генерируя решения, которые часто соответствуют или превосходят экспертную настройку рук»,-отметил Агравал. В своих экспериментах по генерации кода CUDA этот подход повысил производительность на 20% задач до экспертного уровня по сравнению с 0% для одной попытки GPT-4O.

Авторы газеты считают, что GEPA является основополагающим шагом к новой парадигме развития ИИ. Но помимо создания более человеческого искусственного интеллекта, его наиболее непосредственное воздействие может быть на то, кто может построить высокоэффективные системы.

«Мы ожидаем, что GEPA обеспечит положительный сдвиг в построении системы искусственного интеллекта, что создает оптимизацию таких систем, доступных для конечных пользователей, которые часто обладают опытом домена, относящейся к задаче, но не обязательно время и готовность изучать сложные специфики RL»,-сказал Агравал. «Это дает власть непосредственно заинтересованным сторонам с точными знаниями в области домены».

Источник

Высокая стоимость оптимизации современных систем ИИ

Оптимизатор, который учится с языком

Гепа в действии

Как ИИ меняет способность людей думать самостоятельно

Nvidia выпускает новую небольшую открытую модель Nemotron-Nano-9B-V2 с рассуждением включения/выключения переключения/выключения

Рекомендуем

Оставить комментарий Отменить ответ