Святой! Новый вариант на 200% более быстрый Deepseek R1-0528 появляется из немецкой лаборатории TNG Technology Consulting GmbH

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Прошло чуть больше месяца с тех пор, как китайский Startup Startup Deepseek, ответвление в Гонконге, базирующееся в Гонконге, выпустила последнюю версию своей популярной модели с открытым исходным кодом Deepseek, R1-0528.

Как и его предшественник, Deepseek-R1, который потряс ИИ и глобальные бизнес-сообщества с тем, насколько дешево он был обучен и насколько хорошо он выполнял для рассуждений, все это доступно для разработчиков и предприятий бесплатно-R1-0528 уже адаптируется и переоценивается другими лабораториями ИИ и разработчиками, в значительной степени благодаря ее разрешенной лицензии Apache 2.0.

На этой неделе 24-летняя немецкая фирма TNG Technology Consulting GmbH выпустила одну такую ​​адаптацию: Deepseek-TNG R1T2 Chimera, последняя модель в семействе крупной языковой модели (LLM). R1T2 обеспечивает заметный повышение эффективности и скорости, забив на более 90% из баллов разведки R1-0528при создании ответов с менее 40% от числа выходных токенов R1-0528Полем

Это означает, что он дает более короткие ответы, переводя непосредственно в более быстрый вывод и снижение вычислительных затратПолем На модельной карте TNG, опубликованной для своего нового R1T2 на сообществе обнимающегося сообщества Code Code, компания заявляет, что она «примерно на 20% быстрее, чем обычный R1» (тот, который выпущен в январе) «и более чем в два раза быстрее, чем R1-0528» (официальное обновление DeepSeek).

Уже реакция была невероятно положительной в сообществе разработчиков искусственного интеллекта. «Черт! Deepseek R1T2-200% быстрее, чем R1-0528 и 20% быстрее, чем R1»,-пишет Вайбхав (VB) Шривастав, старший лидер обнимающего лица, на X. «Значительно лучше, чем R1 на GPQA & AIME 24, созданный через Assembly of Experts с DS V3, R1 и R1-0528-и ITICED-LICED-LICED-LICED-LICED-LICED-LICEDED.

Этот усиление стало возможным благодаря методу сборки Experts (AOE) TNG-метод создания LLM, выборочно объединяя тензоры веса (внутренние параметры) из нескольких предварительно обученных моделей, которые TNG описал в статье, опубликованном в мае на Arxiv, не выпущенном онлайн-журнале Open Access.

Преемник оригинальной R1T Chimera, R1T2 вводит новую конфигурацию «Tri-Mind», которая интегрирует три родительские модели: DeepSeek-R1-0528, Deepseek-R1 и Deepseek-V3-0324. Результатом является модель, разработанная для поддержания высоких возможностей рассуждений при значительном снижении стоимости вывода.

R1T2 строится без дальнейшей настройки или переподготовки. Он наследует силу рассуждения R1-0528, структурированные модели мышления R1 и краткое, ориентированное на инструкции поведение V3-0324-обеспечивая более эффективную, но способную модель для предприятия и исследования.

Как сборка экспертов (AOE) отличается от смеси экспертов (MOE)

Смесь экспертов (MOE)-это архитектурный дизайн, в котором различные компоненты, или «эксперты», условно активированы на вход. В Moe LLM, таких как DeepSeek-V3 или Mixtral, только подмножество экспертных слоев модели (например, 8 из 256) активны во время любого данного прохода токена. Это позволяет очень крупным моделям достигать более высокого количества параметров и специализации при соблюдении управляемых затрат на вывод, потому что только часть сети оценивается на токен.

Сборка экспертов (AOE)-это метод слияния модели, а не архитектура. Он используется для создания новой модели из нескольких предварительно обученных моделей MOE путем избирательного интерполяции их тензоров веса.

«Эксперты» в AOE относятся к объединенным компонентам модели — как правило, маршрутируемых экспертных тензоров в слоях MOE — не эксперты, динамически активируемые во время выполнения.

Внедрение TNG AOE фокусируется в первую очередь на слиянии маршрутизированных экспертных тензоров-часть модели, наиболее ответственной за специализированные рассуждения,-при этом часто сохраняет более эффективные общие уровни и слои внимания из более быстрых моделей, таких как V3-0324. Этот подход позволяет полученным моделям химеры унаследовать прочность рассуждений, не воспроизводя условно -достоверность или задержку самых сильных родительских моделей.

Производительность и скорость: что на самом деле показывают тесты

Согласно сравнению с эталонами, представленными TNG, R1T2 достигает между 90% и 92% Из аргументации его самого интеллектуального родителя, DeepSeek-R1-0528, измеренные тестовыми наборами AIME-24, AIME-25 и GPQA-Diamond.

Однако, в отличие от Deepseek-R1-0528, который имеет тенденцию производить длинные, подробные ответы из-за его расширенных рассуждений в цепочке мыслей, R1T2 предназначен для того, чтобы быть гораздо более кратким. Он обеспечивает аналогичные интеллектуальные ответы, используя значительно меньше слов.

Вместо того, чтобы сосредоточиться на необработанном времени обработки или токенах в секунду, TNG измеряет «скорость» с точки зрения Выходное количество токенов за ответ — Практический прокси как для стоимости, так и задержки. Согласно тестам, разделяемым TNG, R1T2 генерирует ответы с использованием приблизительно 40% токенов требуется R1-0528.

Это переводится на На 60% снижение выходной длиныкоторый непосредственно уменьшает время вывода и вычисляет нагрузку, ускоряя ответы на 2 раза или 200%.

По сравнению с оригинальным DeepSeek-R1, R1T2 также рядом На 20% более лаконично в среднемпредлагая значимые успехи в эффективности для высокопроизводительных или чувствительных к затратам развертывания.

Эта эффективность не достигается за счет интеллекта. Как показано на эталонном диаграмме, представленной в технической статье TNG, R1T2 находится в желаемой зоне по кривой затрат на разведку и выход. Он сохраняет качество рассуждений, в то же время минимизируя многословие — результат, критический для корпоративных приложений, где скорость вывода, пропускная способность и стоимость всего вопроса.

Соображения развертывания и доступность

R1T2 выпускается по разрешающей лицензии MIT и теперь доступен для обнимающего лица, что означает, что он является открытым исходным кодом и доступен для использования и встроенного в коммерческие приложения.

TNG отмечает, что, хотя модель хорошо подходит для общих задач рассуждения, в настоящее время она не рекомендуется для вариантов использования, требующих вызова функций или использования инструментов из-за ограничений, унаследованных от его линии DeepSeek-R1. Они могут быть рассмотрены в будущих обновлениях.

Компания также советует европейским пользователям оценить соответствие Закону ЕС, который вступит в силу 2 августа 2025 года.

Предприятия, работающие в ЕС, должны пересмотреть соответствующие положения или рассмотреть возможность остановки использования модели после этой даты, если требования не могут быть выполнены.

Тем не менее, американские компании, работающие внутри страны и обслуживают американских пользователей, или других стран, находятся нет в зависимости от условий Закона ЕС, которые должны обеспечить им значительную гибкость при использовании и развертывании этой бесплатной, скорой модели рассуждения с открытым исходным кодом. Если они обслуживают пользователей в ЕС, некоторые положения Закона ЕС все равно будут применяться.

TNG уже сделала предыдущие варианты химеры, доступными через такие платформы, как OpenRouter и Plate, где они, как сообщается, ежедневно обрабатывали миллиарды токенов. Выпуск R1T2 представляет собой дальнейшую эволюцию в этой общественной доступности.

О TNG Technology Consulting GmbH

Основанная в январе 2001 года, TNG Technology Consulting GmbH базируется в Баварии, Германия, и насчитывает более 900 человек с высокой концентрацией докторов наук и технических специалистов.

Компания фокусируется на разработке программного обеспечения, искусственном интеллекте и DevOps/Cloud Services, обслуживая крупных предприятий в разных отраслях, таких как телекоммуникации, страхование, автомобильная, электронная коммерция и логистика.

TNG работает как консалтинговое партнерство, основанное на ценностях. Его уникальная структура, основанная на оперативных исследованиях и принципах самоуправления, поддерживает культуру технических инноваций.

Он активно участвует в общинах и исследованиях с открытым исходным кодом, как показано с помощью общественных выпусков, таких как R1T2, и публикация ее методологии Ассамблеи-экспертов.

Что это значит для тех, кто принимает технические решения предприятия

Для CTO, владельцев платформ AI, инженерных лидеров и групп по закупкам ИТ, R1T2 вводит ощутимые преимущества и стратегические варианты:

  • Более низкие затраты на вывод: Благодаря меньшему количеству выходных токенов на задачу, R1T2 снижает время графического процессора и потребление энергии, переводя непосредственно в экономию инфраструктуры, особенно важную в средах с высокой пропускной способностью или в реальном времени.
  • Высокое качество рассуждений без накладных расходов: Он сохраняет большую часть способности моделей высшего уровня, таких как R1-0528, но без их долговечности. Это идеально подходит для структурированных задач (математика, программирование, логика), где предпочтительны краткие ответы.
  • Открыть и модифицируемый: Лицензия MIT обеспечивает полное управление развертыванием и настройку, обеспечивая частное хостинг, выравнивание модели или дальнейшее обучение в регулируемых или воздушных средах.
  • Новая модульность: Подход AOE предполагает будущее, в котором модульные модели создаются, позволяя предприятиям собирать специализированные варианты путем рекомбинации сильных сторон существующих моделей, а не переподготовки с нуля.
  • Предостережения: Предприятия, полагаемые на функции, использование инструментов или передовое оркестровку агента должны отмечать текущие ограничения, хотя в будущих обновлениях химеры могут рассматриваться эти пробелы.

TNG поощряет исследователей, разработчиков и корпоративных пользователей изучать модель, проверить ее поведение и предоставлять обратную связь. R1T2 Химера доступна по адресу gurgingface.co/tngtech/deepseek-tng-r1t2-chimera, и технические запросы могут быть направлены на Research@tngtech.comПолем

Для технического опыта и методологии эталона, исследовательская работа TNG доступна по адресу arxiv: 2506.14794.



Источник

Рекомендуем

Оставить комментарий