Смесь рекурсий приносит в 2 раза быстрее выводы-вот как ее реализовать

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Исследователи из KAIST AI и MILA представили новую архитектуру трансформатора, которая делает большие языковые модели (LLMS) большей памятью и вычислительную эффективность. Архитектура, называемая смесью рекурсий (MOR), значительно повышает точность модели и обеспечивает более высокую пропускную способность по сравнению с ванильными трансформаторами, даже если они ограничены тем же количеством параметров и вычислением бюджета.

Проблемы масштабирования LLMS

Впечатляющие возможности сегодняшних LLM напрямую связаны с их постоянно растущим размером. Но поскольку эти модели масштабируются, их следов памяти и вычислительные требования часто становятся несостоятельными, что делает сложные как обучение, так и развертывание для организаций за пределами центров обработки данных гиперспекты. Это привело к поиску более эффективных проектов.

Усилия по повышению эффективности LLM были сосредоточены в основном на двух методах: обмен параметрами и адаптивные вычисления. Методы совместного использования параметров уменьшают общее количество уникальных параметров, повторно используя веса в разных частях модели, тем самым уменьшая общую вычислительную сложность. Например, «связывание слоя» — это техника, которая повторно использует вес модели на нескольких слоях. Адаптивные методы вычисления настраивают модели так, чтобы они использовали только столько ресурсов вывода, сколько им необходимо. Например, «раннее выход» динамически распределяет вычислитель, позволяя модели прекратить обработку «более простых» токенов на ранних этапах сети.

Однако создание архитектуры, которая эффективно объединяет как эффективность параметров, так и адаптивные вычисления, остается неуловимым.

Как работает смеси рекурсий

Смесь рекурсий-это структура, которая объединяет обмен параметрами с адаптивными вычислениями для решения высоких вычислительных требований LLMS. Он основан на концепции рекурсивных трансформаторов, моделей, которые неоднократно применяют набор общих слоев несколько раз. Вместо глубокой стопки уникальных слоев рекурсивный трансформатор разделяет модель на несколько «рекурсионных блоков», каждый с общим пулом параметров. Эта конструкция обеспечивает больше вычислений без увеличения размера модели.

MOR усиливает этот рекурсивный подход с двумя ключевыми компонентами. Первый — это легкий маршрутизатор, который разумно назначает определенную глубину рекурсии каждому токену. Эта концепция аналогична механизму маршрутизации в моделях смеси экспертов (MOE), где маршрутизатор направляет токены на специализированные экспертные сети. В MOR, однако, «эксперты» представляют собой различные глубины рекурсии, что позволяет модели выбирать, сколько вычислений динамически применить к каждому токену. Он решает, сколько раз следует применяться общий блок слоев на основе сложности токена или его необходимой «глубины мышления». Это направляет вычисление только там, где это наиболее необходимо, избегая потраченных циклов на простых в процессе процесса ввода.

Смесь рекурсии (источник: arxiv) — *Смесь рекурсии Источник: Arxiv*

Второй компонент представляет собой более эффективную стратегию кэширования ключей (KV). Кэширование KV — это стандартный метод, который хранит информацию от предыдущих токенов, чтобы ускорить генерацию, но он становится узким местом памяти в рекурсивных моделях. MOR представляет механизм кэширования «рекурсия», который избирательно хранит и извлекает пары ключей только для токенов, которые все еще активны на данном этапе рекурсии. Это целевое кэширование уменьшает трафик памяти и улучшает пропускную способность без необходимости сложных модификаций после тренировки.

Как утверждают исследователи в своей статье, «по сути, MOR позволяет моделям эффективно регулировать глубину своего мышления на основе для заклинания, объединяя эффективность параметров с адаптивными вычислениями».

Различные механизмы маршрутизации токенов и кэширование кВ для рекурсивных трансформаторов (источник: arxiv) — *Различные механизмы маршрутизации токенов и кэширование кВ для рекурсивных трансформаторов Источник: arxiv*

Мор в действии

Чтобы проверить свою структуру, исследователи обучили модели MOR в диапазоне от 135 миллионов до 1,7 миллиарда параметров и сравнили их с ванильными и стандартными рекурсивными базовыми моделями по утрате и показателям точности.

Результаты демонстрируют значительные выгоды. При предоставлении равной учебной учебы в бюджете MOR модель MOR достигла более высокой средней точности с небольшим выстрелом (43,1% против 42,3%), чем базовая линия ванили, несмотря на то, что они использовали почти на 50% меньше параметров. При обучении на том же объеме данных модель MOR сократила время обучения на 19% и сократила использование пиковой памяти на 25% по сравнению с ванильной моделью.

Архитектура MOR также оказывается масштабируемой. В то время как он слегка снизил ванильную модель в наименьшей масштабе параметров 135 м, зазор быстро закрылся по мере увеличения размера модели. Для моделей с более чем 360 -метровыми параметрами MOR соответствовал или превышал производительность стандартных трансформаторов, особенно при более низких вычислительных бюджетах. Кроме того, дизайн MOR резко повышает пропускную способность вывода. Одна конфигурация MOR достигла скорости 2,06x над базовой линией ванили. Для компании, работающей в масштабе, это может привести к значительной экономии эксплуатационных расходов.

Sangmin Bae, соавтор газеты и аспирант в Kaist, разбил практическое влияние в электронном письме на Venturebeat. «В то время как трудно предоставить точные числа, на высоком уровне, уменьшение размера параметров модели и следов кэша KV означает, что мы можем выполнить вывод на много других образцов одновременно», — сказал он. «Это приводит к увеличению количества токенов, обработанных одновременно, и обработка более длинных контекстов становится возможной».

Практический путь для принятия предприятий

В то время как результаты статьи поступают из моделей, обученных с нуля, ключевым вопросом для предприятий является то, как принять MOR без массовых авансовых инвестиций. Согласно BAE, «подъемные» существующие модели с открытым исходным кодом являются «определенно более экономически эффективным подходом». Он отметил, что во время обучения новой модели проста, «подход к подготовке может быть более подходящим и эффективным, пока масштабируемость самого MOR не будет полностью проверена».

Принятие MOR также вводит новые архитектурные «ручки» для разработчиков, позволяя им точно установить баланс между производительностью и эффективностью. Этот компромисс будет полностью зависеть от потребностей приложения.

«Для более простых задач или сценариев может быть полезно использовать модели с большим количеством рекурсий, предлагая большую гибкость и наоборот», — объяснил Баэ. Он подчеркнул, что «оптимальные настройки будут сильно зависеть от конкретной настройки развертывания», поощряя команды исследовать компромиссы на основе выводов газеты.

Заглядывая в будущее, MOR Framework является «модальной агростой», что означает, что его принципы адаптивных вычислений не ограничены текстом. Это открывает дверь к значительному повышению эффективности при обработке видео, аудио и других сложных типов данных.

«Мы очень взволнованы его потенциальным расширением сценариев мультимодальности, где повышение эффективности имеет решающее значение»,-сказал Бэ.

Динамически регулируя глубину обработки для каждого сегмента видео или аудио-потока, MOR может разблокировать еще большую экономию затрат и улучшение производительности, что привнесло мощность крупномасштабного ИИ в более широкий диапазон корпоративных приложений. Как заключает статья, MOR предлагает «эффективный путь к достижению возможностей крупной модели со значительно уменьшенным вычислительным и накладным расходом памяти».

Источник

Проблемы масштабирования LLMS

Как работает смеси рекурсий

Мор в действии

Практический путь для принятия предприятий

Intuit приносит агент AI в организации, спасающие средний рынок от 17 до 20 часов в месяц

QWEN3-CODER-480B-A35B-Instruct запускается, и это может быть лучшей моделью кодирования.

Рекомендуем

Оставить комментарий Отменить ответ