Это лето QWEN: новый открытый исходный код QWEN3-235B-A22B-CHINDE-2507 TOPS OPEN, модели рассуждений Близнецов на ключевых тестах

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Если бы индустрия ИИ была эквивалентно звукозаписывающей индустрии «Song of the Summer» — хит, который завоевывается в теплые месяцы здесь, в северном полушарии и слышит повсюду — четкий лауреат для этого титула отправится в команду Alibaba QWEN.

За прошедшую неделю в отделе исследований AI Frontier Model AI китайской электронной коммерции выпустили не одну, не две, не три, а четыре (!!) новые модели с открытым исходным исходным искусством, которые предлагают контрольные показатели, которые представляют даже некоторые ведущие проприетарные варианты.

Прошлой ночью команда QWEN завершила это выпуском QWEN3-235B-A22B-CHINGE-2507Это обновляется рассуждение о большой языковой модели (LLM), которая занимает больше времени, чем неэразирующая или «инструктирование» LLM, участие в «цепях размышлений» или саморефлексии и самостоятельной проверке, которые, как мы надеемся, приводят к более правильным и всеобъемлющим ответам на более сложные задачи.

Действительно, новый QWEN3-CINDICE-2507, так как мы будем называть его коротко, теперь ведет или тщательно следит за максимальными моделями в нескольких основных тестах.

Как писал «ИИ влиятельный человек» и «Новости» Эндрю Керран на «X:« Самая сильная модель рассуждения Qwen, и она находится на границе ».

В AIME25 Конфликт-спроектирован для оценки способности решать проблемы в математических и логических контекстах- QWEN3-2507 лидирует все зарегистрированные модели с результатом 92.3узко превзойдя обоих O4-Mini (Openai (92.7и Gemini-2,5 Pro (88.0)

Модель также показывает командную производительность на LiveCodebench V6В Оценка 74,1, опередив Google Gemini-2,5 Pro (72,5), Openai O4-Mini (71,8)и значительно превосходя свою более раннюю версию, которая опубликовала 55,7Полем

В GPQAэталон для вопросов с несколькими вариантами выбора, модель достигает 81.1почти соответствует Deepseek-R1-0528 (81.0) и ведущий гемини-2,5 Pro 86.4Полем

На Arena-Hard V2который оценивает выравнивание и субъективные предпочтения посредством показателей побед, QWEN3-CINDING-2507 79,7поместив его впереди всех конкурентов.

Результаты показывают, что эта модель не только превосходит своего предшественника в каждой основной категории, но и устанавливает новый стандарт для того, что могут достичь модели с открытым исходным кодом.

Переход от «гибридных рассуждений»

Выпуск QWEN3-CHINGE-2507 отражает более широкий стратегический сдвиг команды Alibaba QWEN: отойти от моделей гибридных рассуждений, которые требовали, чтобы пользователи вручную переключались между режимами «мышления» и «не обдумыванием».

Вместо этого команда теперь обучает отдельные модели для рассуждений и задач обучения. Это разделение позволяет оптимизировать каждую модель для ее предполагаемой цели, что приводит к улучшению согласованности, ясности и контрольной производительности. Новая модель QWEN3 полностью воплощает эту философию дизайна.

Наряду с ним, Qwen запустил QWEN3-CODER-480B-A35B-Instructмодель 480B-параметра, созданная для сложных рабочих процессов кодирования. Он поддерживает 1 миллион токеновых контекстов и превосходит GPT-4.1 и Gemini 2.5 Pro на проверке SWE-Bench.

Также объявлено QWEN3-MTмногоязычная модель перевода, обученная триллионам токенов на 92+ языках. Он поддерживает адаптацию домена, контроль терминологии и вывод всего от 0,50 долл. США за миллион токенов.

В начале недели команда выпустила QWEN3-235B-A22B-Instruct-2507не запрашивающая модель, которая превзошла Claude Opus 4 по нескольким критериям и представила легкий вариант FP8 для более эффективного вывода на ограниченном оборудовании.

Все модели лицензированы в Apache 2.0 и доступны благодаря обнимающему лицу, моделям и API QWEN.

Лицензирование: Apache 2.0 и его преимущество предприятия

QWEN3-235B-A22B-CHINKING-2507 выпускается под Apache 2.0 Лицензиякрайне разрешающая и коммерчески дружелюбная лицензия, которая позволяет предприятиям загружать, модифицировать, самостоятельно, настраивать и интегрировать модель в проприетарные системы без ограничений.

Это противоречит проприетарным моделям или открытым выпускам только для исследования, которые часто требуют доступа к API, навязывают ограничения использования или запрещают коммерческое развертывание. Для сознательных организаций и команд, стремящихся контролировать затраты, задержку и конфиденциальность данных, лицензирование Apache 2.0 обеспечивает полную гибкость и владение.

Доступность и цены

QWEN3-235B-A22B-CHINGE-2507 теперь доступен бесплатно для бесплатной загрузки на лице объятия и моделей.

Для тех предприятий, которые не хотят или не имеют ресурсов и возможностей размещать модельный вывод на своем собственном оборудовании или виртуальном частном облаке через API, VLLM и Sglang Alibaba Cloud.

  • Входная цена: 0,70 долл. США за миллион токенов
  • Выходная цена: 8,40 долл. США за миллион токенов
  • Бесплатный уровень: 1 миллион токенов, действительный в течение 180 дней

Интеграция и инструменты

Модель совместима с агентскими рамками через Qwen-Agentи поддерживает расширенное развертывание с помощью API-совместимых с OpenAI.

Его также можно запускать локально, используя фреймворки трансформатора или интегрированы в стеки Dev через node.js, инструменты CLI или структурированные интерфейсы.

Настройки выборки для лучшей производительности включают температура = 0,6В top_p = 0,95и максимальная длина выхода из 81 920 токенов для сложных задач.

Корпоративные приложения и будущие перспективы

Благодаря сильной контрольной производительности, долгосрочной перспективе и разрешительным лицензированием, QWEN3-Cilling-2507 особенно хорошо подходит для использования в системах ИИ предприятия, включающих мышление, планирование и поддержку принятия решений.

Более широкая экосистема QWEN3, включая модели кодирования, обучения и перевода, распространяется на технические команды и бизнес -подразделения, стремясь включить ИИ по вертикали, таким как инженерная инженерия, локализация, поддержка клиентов и исследования.

Решение команды QWEN выпустить специализированные модели для различных вариантов использования, подкрепленные технической прозрачностью и поддержкой сообщества, сигнализирует о преднамеренном сдвиге в сторону строительства Открытая, исполнительная и готовая к производству инфраструктура ИИПолем

Поскольку все больше предприятий ищут альтернативы, управляемым API, черными ящиками, серия QWEN от Alibaba все чаще позиционирует себя как жизнеспособную основу с открытым исходным кодом для интеллектуальных систем, предлагая как контроль, так и возможности в масштабе.



Источник

Рекомендуем

Оставить комментарий