Помимо архитектуры GPT: почему подход к распространению Google может изменить развертывание LLM

Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше

В прошлом месяце, наряду с комплексным набором новых инструментов и инноваций AI, Google DeepMind представила диффузию Близнецов. В этой экспериментальной модели исследования используется подход на основе диффузии для создания текста. Традиционно, крупные языковые модели (LLMS), такие как GPT и сами Близнецы, полагались на авторегрессию, пошаговый подход, в котором каждое слово генерируется на основе предыдущего. Модели диффузионного языка (DLMS), также известные как крупные языковые модели на основе диффузии (DLLM), используют метод, чаще встречающийся в генерации изображений, начиная со случайного шума и постепенно переработав его в когерентный выход. Этот подход значительно увеличивает скорость генерации и может улучшить когерентность и последовательность.

Диффузия Близнецов в настоящее время доступна в качестве экспериментальной демонстрации; Подпишитесь на список ожидания, чтобы получить доступПолем

(Примечание редактора: мы распаковываем смены парадигмы, такие как языковые модели на основе диффузии-и что нужно для их запуска в производстве-в VB Transform, 24–25 июня в Сан -Францисконаряду с Google DeepMind, LinkedIn и другими руководителями ИИ предприятия.)

Понимание диффузии против авторегрессии

Диффузия и авторегрессия являются принципиально разными подходами. Ауторегрессивный подход генерирует текст последовательно, с токенами предсказаны по одному. Хотя этот метод обеспечивает сильную когерентность и отслеживание контекста, он может быть вычислительно интенсивным и медленным, особенно для длительного содержания.

Диффузионные модели, напротив, начинаются со случайного шума, который постепенно превращается в когерентный выход. При применении к языку техника имеет несколько преимуществ. Блоки текста могут быть обработаны параллельно, потенциально производящие целые сегменты или предложения с гораздо более высокой скоростью.

По сообщениям, диффузия Близнецов может генерировать 1000-2000 токенов в секунду. Напротив, Flash Gemini 2,5 имеет среднюю скорость выходной мощности 272,4 токена в секунду. Кроме того, ошибки в генерации могут быть исправлены во время процесса переработки, повышение точности и снижение количества галлюцинаций. Там могут быть компромиссы с точки зрения мелкозернистой точности и контроля на уровне токена; Тем не менее, увеличение скорости будет изменять игру для многочисленных приложений.

Как работает генерация текста на основе диффузии?

Во время обучения DLMS работает, постепенно развращая предложение с шумом на многих шагах, пока первоначальное предложение не станет совершенно неузнаваемым. Затем модель обучается обратить вспять этот процесс, шаг за шагом, реконструируя исходное предложение от все более шумных версий. Благодаря итеративному уточнению он учится моделировать все распределение правдоподобных предложений в учебных данных.

Хотя специфика диффузии Близнецов еще не раскрыта, типичная методология обучения для диффузионной модели включает в себя эти ключевые этапы:

Вперед диффузия: При каждом образе в тренировочном наборе данных шум постепенно добавляется в течение нескольких циклов (часто от 500 до 1000), пока он не станет неразличимым от случайного шума.

Обратная диффузия: Модель учится обратить каждый шаг из процесса заработной платы, по сути, изучая, как «денузировать» поврежденное предложение по одному этапу за раз, в конечном итоге восстанавливая исходную структуру.

Этот процесс повторяется миллионы раз с разнообразными образцами и уровнями шума, что позволяет модели изучить надежную функцию двойного обзора.

После обучения модель способна генерировать совершенно новые предложения. DLMS, как правило, требует условия или ввода, такого как подсказка, метка класса или встраивание, чтобы направлять поколение к желаемым результатам. Условие вводится в каждый этап процесса двойного раздела, который формирует начальную каплю шума в структурированный и когерентный текст.

Преимущества и недостатки моделей на основе диффузии

В интервью VentureBeat Брендан О’Донохью, научный сотрудник Google DeepMind и один из главных по сравнению с диффузионным проектом Близнецов, подробно рассказал о некоторых преимуществах методов на основе диффузии по сравнению с авторегрессией. Согласно О’Донохью, основные преимущества диффузионных методов являются следующими:

Нижние задержки: Диффузионные модели могут создавать последовательность токенов за гораздо меньше времени, чем авторегрессивные модели.
Адаптивные вычисления: Диффузионные модели будут сходиться к последовательности токенов с разными скоростями в зависимости от сложности задачи. Это позволяет модели потреблять меньше ресурсов (и иметь более низкие задержки) для простых задач и больше на более сложных.
Неуазуральные рассуждения: Из -за двунаправленного внимания в Denoiser токены могут заниматься будущими токенами в том же поколении. Это позволяет иметь нецелостные рассуждения и позволяет модели вносить глобальные изменения в блоке для создания более когерентного текста.
Итеративная уточнение / самокоррекция: Процесс унижения включает выборку, которая может вводить ошибки, как в авторегрессии моделей. Однако, в отличие от авторегрессивных моделей, токены передаются обратно в денозер, который затем имеет возможность исправить ошибку.

O’Donoghue также отметил основные недостатки: «Более высокая стоимость обслуживания и немного более высокое время к первым (TTFT), поскольку авторегрессивные модели будут создавать первый токен сразу. Для диффузии первый жетон может появиться только тогда, когда вся последовательность токенов будет готова».

Производительность

Google говорит, что производительность диффузии Gemini сопоставима с Flash-Lite Gemini 2.0.

Эталон	Тип	Диффузия Близнецов	Gemini 2.0 Flash-Lite
LiveCodebench (V6)	Код	30,9%	28,5%
BigCodebench	Код	45,4%	45,8%
LBPP (V2)	Код	56,8%	56,0%
Swe-Bench проверил*	Код	22,9%	28,5%
Гуманевал	Код	89,6%	90,2%
MBPP	Код	76,0%	75,8%
GPQA Diamond	Наука	40,4%	56,5%
AIME 2025	Математика	23,3%	20,0%
Большой палочку очень тяжело	Рассуждение	15,0%	21,0%
Глобальный MMLU (Lite)	Многоязычный	69,1%	79,0%

* Неагентическая оценка (только для редактирования одного поворота), максимальная длина подсказки 32 тыс..

Эти две модели сравнивались с использованием нескольких критериев, с оценками, основанными на том, сколько раз модель давала правильный ответ с первой попытки. Диффузия Близнецов хорошо выполнялась в тестах кодирования и математики, в то время как Flash-Lite Gemini 2.0 имел преимущество в рассуждениях, научных знаниях и многоязычных возможностях.

По мере развития диффузии Близнецов нет никаких оснований думать, что его производительность не догоняет с более устоявшимися моделями. По словам О’Донохью, разрыв между двумя методами «по существу закрыт с точки зрения контрольной производительности, по крайней мере, в относительно небольших размерах, которые мы масштабировали.

Тестирование диффузии Близнецов

VentureBeat получил доступ к экспериментальной демонстрации. Когда мы переживая диффузию Близнецов через свои шаги, первое, что мы заметили, было скоростью. При запуске предлагаемых подсказок, предоставленных Google, включая создание интерактивных приложений HTML, таких как ксилофон и планета Tac Toe, каждый запрос выполняется менее чем за три секунды, со скоростью от 600 до 1300 токенов в секунду.

Чтобы проверить его производительность с помощью реального приложения, мы попросили диффузию Gemini для создания интерфейса видеочата со следующей подсказкой:

Build an interface for a video chat application. It should have a preview window that accesses the camera on my device and displays its output. The interface should also have a sound level meter that measures the output from the device's microphone in real time.

Менее чем за две секунды диффузия Близнецов создала рабочий интерфейс с предварительным просмотром видео и аудиометра.

Хотя это не было сложной реализацией, это могло бы быть началом MVP, который может быть завершен с небольшим количеством дальнейшего подсказки. Обратите внимание, что Flash Gemini 2.5 также создала рабочий интерфейс, хотя и в немного более медленном темпе (приблизительно семь секунд).

Диффузия Близнецов также включает в себя «Мгновенное редактирование», режим, в котором текст или код могут быть вставлены и отредактированы в режиме реального времени с минимальным подсказом. Мгновенное редактирование эффективно для многих типов текстового редактирования, включая исправление грамматики, обновление текста для нацеливания на различные персонажи читателей или добавление ключевых слов SEO. Он также полезен для таких задач, как код Refactoring, добавление новых функций в приложения или преобразование существующей кодовой базы на другой язык.

Примеры использования предприятия для DLMS

Можно с уверенностью сказать, что любое приложение, которое требует быстрого отклика, может получить выгоду от технологии DLM. Это включает в себя приложения в режиме реального времени и с низкой задержкой, такие как разговорные ИИ и чат-боты, живая транскрипция и перевод, или ассистенты по автозаполнению IDE и кодирование.

По словам О’Донохью, с приложениями, которые используют «встроенное редактирование, например, привлечение куска текста и внесение некоторых изменений на месте, диффузионные модели применимы так, как это не так». DLMS также имеет преимущество с проблемами разума, математики и кодирования, из-за «бессмысленных рассуждений, предоставляемых двунаправленным вниманием».

DLM все еще в зачаточном состоянии; Тем не менее, технология может потенциально изменить то, как создаются языковые модели. Они не только генерируют текст с гораздо более высокой скоростью, чем авторегрессивные модели, но и способность возвращаться и исправлять ошибки означает, что, в конечном итоге, они также могут дать результаты с большей точностью.

Диффузия Близнецов входит в растущую экосистему DLMS, с двумя заметными примерами, которые являются ртутью, разработанные Labs, и LLADA, модель с открытым исходным кодом от GSAI. Вместе эти модели отражают более широкий импульс, лежащий в основе генерации языка на основе диффузии и предлагают масштабируемую, параллелизируемую альтернативу традиционным ауторегрессионным архитектурам.

Источник

Понимание диффузии против авторегрессии

Как работает генерация текста на основе диффузии?

Преимущества и недостатки моделей на основе диффузии

Производительность

Примеры использования предприятия для DLMS

Новая Carcast: Metrics имеет значение? Кроме того, размышляя о стратегии ИИ и значении жизни

Организация работы и обработка уведомлений в SOC: три подхода

Рекомендуем

Оставить комментарий Отменить ответ