Запуск тысяч LLM на одном графическом процессоре теперь возможен с S-Lora

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

Точная настройка крупных языковых моделей (LLM) стала важным инструментом для предприятий, стремящихся адаптировать возможности ИИ к нишевым задачам и персонализированным пользовательским опытом. Но тонкая настройка обычно поставляется с крутыми вычислительными и финансовыми накладными расходами, что позволяет использовать его использование для предприятий с ограниченными ресурсами.

Чтобы решить эти проблемы, исследователи создали алгоритмы и методы, которые снижают стоимость тонких настройки LLM и работают с тонкими настроенными моделями. Последним из этих методов является S-Lora, совместная попытка исследователей из Стэнфордского университета и Университета Калифорнии-Беркли (UC Berkeley).

S-Lora резко снижает затраты, связанные с развертыванием тонких настраиваемых LLMS, что позволяет компаниям управлять сотнями или даже тысячами моделей на единой графической обработке (GPU). Это может помочь разблокировать многие новые приложения LLM, которые ранее были бы слишком дорогостоящими или требовать огромных инвестиций в вычислительные ресурсы.

Низкая адаптация

Классический подход к тонкому настройке LLMS включает переподготовку предварительно обученной модели с новыми примерами, адаптированными к определенной нисходящей задаче и корректировке всех параметров модели. Учитывая, что LLM обычно имеют миллиарды параметров, этот метод требует существенных вычислительных ресурсов.

Методы с точной настройкой параметров (PEFT) обоходят эти затраты, избегая корректировки всех весов во время тонкой настройки. Примечательным методом PEFT является адаптация с низким уровнем ранга (LORA), метод, разработанный Microsoft, который идентифицирует минимальное подмножество параметров в основой LLM, которые адекватны для точной настройки новой задачи.

Примечательно, что Лора может уменьшить количество тренировочных параметров на несколько порядков величины, сохраняя при этом уровни точности наравне с тем, которые достигнуты с помощью полномасштабной точной настройки. Это значительно уменьшает память и вычисления, необходимые для настройки модели.

Эффективность и эффективность LORA привели к ее широкому распространению в сообществе ИИ. Многочисленные адаптеры LORA были изготовлены для предварительно обученных LLMS и диффузионных моделей.

Вы можете объединить веса LORA с базовым LLM после тонкой настройки. Тем не менее, альтернативная практика включает в себя поддержание весов LORA в качестве отдельных компонентов, которые подключены к основной модели во время вывода. Этот модульный подход позволяет компаниям поддерживать несколько адаптеров LORA, каждый из которых представляет собой тонкий вариант модели, в то же время в совокупности занимает лишь часть следов памяти основной модели.

Потенциальные приложения этого метода являются обширными, от создания контента до обслуживания клиентов, что позволяет предприятиям предоставлять индивидуальные услуги, управляемые LLM, не получая запретных затрат. Например, платформа для ведения блога может использовать эту технику, чтобы предложить тонкие LLMS, которые могут создавать контент со стилем письма каждого автора за минимальные расходы.

Что предлагает S-Lora

В то время как развертывание нескольких моделей LORA на одном полнопараметрическом LLM является заманчивой концепцией, она вводит несколько технических проблем на практике. Основной проблемой является управление памятью; У графических процессоров есть конечная память, и в любой момент времени можно загрузить только количество адаптеров. Это требует высокоэффективной системы управления памятью для обеспечения плавной работы.

Другим препятствием является процесс партии, используемый серверами LLM для повышения пропускной способности путем одновременного обращения с несколькими запросами. Различные размеры адаптеров LORA и их отдельные вычисления из базовой модели вводят сложность, потенциально приводящие к памяти и вычислительному узлу места, которые препятствуют скорости вывода.

Кроме того, тонкости умножаются на более крупные LLM, которые требуют параллельной обработки мульти-GPU. Интеграция дополнительных весов и вычислений от адаптеров LORA усложняет структуру параллельной обработки, требуя инновационных решений для поддержания эффективности.

S-Lora использует динамическое управление памятью, чтобы обмениваться адаптерами LORA между основной памятью и графическим процессором

Новая техника S-Lora решает эти проблемы через рамки, предназначенную для обслуживания нескольких моделей LORA. S-Lora имеет динамическую систему управления памятью, которая загружает веса LORA в основную память и автоматически передает их между графическим процессором и памятью оперативной памяти, поскольку она получает и пакетные запросы.

Система также вводит механизм «унифицированного пейджинга», который плавно обрабатывает модель запросов и веса адаптеров. Это инновация позволяет серверу обрабатывать сотни или даже тысячи пакетных запросов, не вызывая проблемы фрагментации памяти, которые могут увеличить время отклика.

S-Lora включает в себя передовую систему «тензора параллелизма», адаптированную для поддержания совместимых адаптеров LORA с большими трансформаторными моделями, которые работают на нескольких графических процессорах.

Вместе эти достижения позволяют S-Lora служить многим адаптерам Lora на одном графическом процессоре или на нескольких графических процессорах.

Служить тысячам LLM

Исследователи оценили S-Lora, обслуживая несколько вариантов модели Llama с открытым исходным кодом из Meta по разным настройкам GPU. Результаты показали, что S-Lora может поддерживать пропускную способность и эффективность памяти в масштабе.

Сенчатовая подвеска против ведущей параметров-эффективной библиотеки точной настройки, обнимающей лицо PEFT, S-Lora продемонстрировала замечательный повышение производительности, повышая пропускную способность до 30 раз. По сравнению с VLLM, высокопроизводительной системой обслуживания с базовой поддержкой LORA, S-Lora не только в четыре раза пропускной способности, но и расширила количество адаптеров, которые можно было бы отдать параллельно на несколько порядков.

Одним из наиболее заметных достижений S-Lora является его способность одновременно обслуживать 2000 адаптеров, одновременно вызывая незначительное увеличение вычислительных накладных расходов для дополнительной обработки LORA.

«S-Lora в основном мотивирована персонализированными LLMS»,-сказал Венчурбит Инг Шэн, аспирант в Стэнфорде и соавтор газеты. «Поставщик услуг может захотеть обслуживать пользователей с одной и той же базовой моделью, но разными адаптерами для каждого. Адаптеры могут быть настроены с помощью данных истории пользователей».

Универсальность S-Lora распространяется на его совместимость с внедренным обучением. Это позволяет пользователю обслуживаться с персонализированным адаптером, одновременно улучшая ответ LLM, добавляя последние данные в качестве контекста.

«Это может быть более эффективным и более эффективным, чем чистое подсказка в контексте»,-добавил Шенг. «У Лоры все больше адаптации в отраслях, потому что она дешевая. Или даже для одного пользователя, они могут держать много вариантов, но с стоимостью точно так же, как у хранения одной модели».

Код S-Lora теперь доступен на GitHub. Исследователи планируют интегрировать его в популярные рамки, проведенные LLM, чтобы позволить компаниям легко включать S-Lora в свои приложения.

Источник

Низкая адаптация

Что предлагает S-Lora

Служить тысячам LLM

Информационная безопасность в «Дюне»

Будущее нейросетей в игровой индустрии. Плюсы, минусы, перспективы ИИ

Рекомендуем

Оставить комментарий Отменить ответ