Автор

admin

Как подход «работающий» в Genspark Triped ARR рост ARR и поддержал множество новых продуктов и функций всего за несколько недель

admin 07.08.2025

admin

Хотите более разумное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Традиционно выпуски продуктов могут быть громоздкими, требуя нескольких подписей, бесконечных возик, бюрократии и точек трения.

Genspark разработал совершенно другой подход.

Полученная команда AI Workspace Company практикует AI-Clive Working-или «Vibe Working», если хотите-чтобы они могли двигаться на то, что они называют «Gen Speed». Это позволяет им выпускать новые продукты и функции в быстром огне-последовательности (почти каждую неделю или около того), что неуклонно увеличивает годовой доход (ARR). Как может похвастаться компания, она может быть «самым быстрорастущим стартапом в истории общего пользования».

«Когда люди работают по ИИ-немую, в основном все являются менеджером»,-сказал VentureBeat, каждый из них-Кайхуа (Кей) Чжу, соучредитель и технический директор. «Они оснащены командой агентов искусственного интеллекта, которые являются их отчетными, и они способны, в одиночку, предоставляя функцию сквозной».

Агрессивные развертывания, соревнования по увольнению

Genspark, запущенный в июне 2024 года Mainfunc, первоначально был сосредоточен на поиске искусственного интеллекта. Но, несмотря на то, что компания достигла впечатляющих 5 миллионов пользователей, компания оторвалась от этого первоначального продукта к супер агенту, который вместо статической последовательности шагов, как в традиционном поиске, выбирает лучшие инструменты или суб-агенты для работы, измеряет результаты и корректируется в режиме реального времени.

Запуская 2 апреля, Super Agagt оснащен Claude’s Claude и может конденсироваться днем офисного офиса белых воротничков на 5 минут, утверждает Чжу. Например, он может совершать звонки, загружать, проверять факты, производить подкасты, провести документы, провести глубокие исследования и собрать электронные таблицы и слайды.

«Мы по -прежнему видим это как своего рода поиск, но он более технически продвинулся», — сказал Чжу, у которого более 20 лет работы в поисках в Google и Baidu.

За последние четыре месяца компания активно добавляла все больше и больше функций; Вот краткое изложение его развертываний и вех:

11 апреля: достиг 10 миллионов долларов Arr через 9 дней после запуска Super Agagt
22 апреля: представлены слайды ИИ (с сотнями шаблонов)
28 апреля: развернул персонализированного супергента с адаптивными личностями
2 мая: Хит 22 миллиона долларов, ровно через месяц после запуска
8 мая: развернутые листы ИИ, которые создают полные электронные таблицы за один щелчок
15 мая: представил полностью агентство загрузочного агента и AI Drive, который управляет и хранит файлы
19 мая: ударил 36 миллионов долларов США
22 мая: выпустил ИИ, который может совершать телефонные звонки
4 июня: представил секретарь ИИ, который управляет Gmail, Calendars и Google Drive
10 июня: развернул браузер и MCP Store с расширенными возможностями просмотра и рынку инструментов
18 июня: представил AI DOCS для создания и управления документами
25 июня: представленная дизайнерская студия с «Canva-подобными» возможностями для создания визуального контента
10 июля: развернули стручки ИИ для создания подкастов с простыми подсказками
17 июля: представленные функции передового редактирования для слайдов ИИ
31 июля: развернулся AI Slides 2.0
1 августа: введена многоагентная оркестровка, которая может одновременно производить до 10 агентов.

Genspark также нагревает пространство агента искусственного интеллекта с дружественной конкуренцией. После того, как OpenAI объявила о своем агенте CHATGPT в середине июля, Genspark провели сравнительный анализ и «очень уверен» в своей способности преуспеть соперника. Чтобы привести домой этот момент, компания запустила «Showdown AI на 1 миллион долларов», вынуждая пользователей охотиться за случаями, когда другие платформы превосходят Genspark Super Agent.

В первом раунде пользователям было поручено создать 12-страничный финансовый слайд с использованием агента Genspack и CHATGPT; Пользователи определили 429 случаев, когда последний превзошел первый, каждый из которых заработал 100 долларов за свои усилия.

Во втором раунде (который закончился в понедельник, 4 августа), Генспарк поднял ставку до 200 долларов за победу и открыл конкуренцию для любого инструмента ИИ в качестве противника. Пользователям было предъявлено задача, чтобы использовать точно такую же подсказку для создания слайдов на Genspark и выбранном их инструменте искусственного интеллекта, а затем загрузите их в Gemini для оценки.

«Не пытаюсь начать какую -либо драму здесь — просто искренне взволнован тем, как далеко зашла вся экосистема агента искусственного интеллекта», — сообщила компания на X. «Это показывает, что мы все раздвигаем границы в правильном направлении».

Некоторые реакции пользователя:

Как генспарк, нативная командная вибрация Genspark

Секрет Генспарка-это его худое, аминскую команду из 20 человек и инженерная философия «меньше контроля, больше инструментов». Zhu объяснил, что AI написано более 80% его кода, что не является кодированием вибрации как таковой, «потому что кодирование Vibe указывает на то, что вы никогда не смотрите на код». Скорее, у Genspark есть «очень жесткий» процесс проверки кода, чтобы помочь гарантировать качество своей базы кода.

«Нам нужна только очень маленькая команда AI, которая работала в каком-то режиме супергероя, как Мстители— сказал Чжу, который сказал, что они постепенно добавят членов команды по мере необходимости. «Кодирование ИИ и рабочий процесс искусственного интеллекта настолько сильны, что это увеличение».

Современные команды предприятия должны быть реорганизованы «совершенно по -другому», сказал он. Он управлял командами из 1000 членов с различными уровнями управления и видел, как офисная политика может ввести трение.

Команда Генскарка, напротив, общается «очень прозрачным образом», а производительность «очень высока». «Все работают над продуктом, который может отправить», — сказал Чжу. «Я считаю, что это будет нормой, поскольку ИИ на самом деле помогает все больше и больше людей делать свою работу лучше».

Он также подчеркнул важность погружения в свой собственный продукт. От самих дизайнеров до маркетинговой команды: «Мы на самом деле едим нашу собственную собаку. Мы — наш собственный потребитель продукта. Вот как мы будем продолжать улучшать опыт».

Внутри флагманского супер агента Генспарка

Чжу отметил, что, когда в декабре 2022 года была запущена недоумение, он вызвал волнение по поводу потенциала ИИ для преобразования поиска. Тем не менее, он следовал жестким рабочим процессам, с платформами необходимо:

Анализировать запросы и расширить ключевые слова;
Получить лучшие результаты в Интернете;
Повторный/суммируйте для окончательного ответа.

Это было адекватно для основных вещей, но «рассыпано» в более сложных сценариях, таких как технические сравнения, подробные исследования и многоэтапные и многофакторные покупки. «По сути, это было все равно, что попытаться ориентироваться в лабиринте только с фиксированными поворотами», — сказал Чжу.

Genspark построил свою поисковую систему на этом же типе основания, накладывая инкрементные улучшения, включая специализированные источники данных, параллельный поиск более глубоких исследований сложных запросов и перекрестной проверки асинхронных агентов для проверки утверждений, слишком сложных для «быстрого, обработки на летании». Но они поняли, что они все еще были «кандалы» по фиксированным, предопределенным рабочим процессам, сообщает Чжу.

Super Agent использует девять разного размера, различных специфических для крупных языковых моделей (LLMS) в системе смеси агентов (MOE). Модели разбивают задачи на шаги, делегируя на основе специальности и прочности, а затем перекрестно проверять друг друга. Super Agent также оснащен более чем 80 инструментами (от суб-агентов, которые могут генерировать код Python, до тех, которые могут автономно выполнять телефонные звонки) и более 10 наборов данных, курируемых из Интернета, партнеров и репозиториев.

Genspark выполняет задачи Claude, Openai, Google Gemini, Deepseek., AI Grok 4 и другим: «Тогда мы позволяем всем производить свои результаты, и у нас есть модель агрегатора, чтобы просмотреть результаты и проанализировать, какой процесс является наиболее экономичным»,-объяснил Чжу. «Таким образом, мы повышаем точность, уменьшаем галлюцинации».

Компания также настраивает свою собственную пограничную модель. Тем не менее, они не чрезмерно агрессивно в отношении создания современных систем, таких как Deepseek V3 или V4, подчеркнул Чжу. Цель состоит в том, чтобы модель выполнила низкоуровневые, но тяжелые работы.

«Мы не пытаемся протолкнуть границу пограничной модели», — сказал он. «Мы пытаемся снизить стоимость и задержку, потому что многие запатентованные модели слишком большие, слишком медленные и слишком дорогие для многих относительно простых задач».

Что касается тенденции кодирования Vibe, цель Генспарка состоит в том, чтобы позволить всем экспериментировать, даже для неправограмм, где концепция может быть немного «слишком далекой».

«Многие думают:« Кодирование атмосфера, я слышал об этом, это звучит круто, но я не знаком с интегрированной средой разработчика (IDE), я не знаком с кодом », — сказал Чжу. «Используя genspark, люди могут на самом деле атмосферу».

Источник

Новости

CHACTGPT Rockets до 700 млн. В неделю пользователей перед запуском GPT-5 с Sounting SuperPowers

admin 06.08.2025

admin

CHATGPT Openai на этой неделе достигнет 700 миллионов активных пользователей еженедельника, сообщила компания в понедельник, укрепив свою позицию в качестве одного из самых быстрого приостановленных программных продуктов в истории, так же, как компания готовится выпустить свою наиболее мощную языковую модель.

В результате перехода на 40 процентов от 500 миллионов еженедельных пользователей, которые Catgpt имел в конце марта, и отмечает в четыре раза больше, чем в прошлом году. Взрывной рост конкурирует с показателями принятия платформ, таких как Zoom во время пандемии и ранних социальных сетей, подчеркивая, как быстро инструменты ИИ перешли от эксперимента к Essential.

На этой неделе CHATGPT находится на пути к достижению 700 -метровых активных пользователей — по сравнению с 500 м в конце марта и 4 × с прошлого года. Каждый день люди и команды учатся, создают и решают более сложные проблемы. Большая неделя впереди. Благодарен команде за то, что он сделал CHATGPT более полезным и…
— Ник Терли (@nickaturley) 4 августа 2025 года

Milestone появляется в стратегический момент для Openai, который, как сообщается, планирует запустить GPT-5 в начале августа, сославшись на источники, знакомые с планами компании. Время предполагает, что OpenAI организует скоординированный толчок для доминирования ландшафта ИИ, прежде чем конкуренты смогут сократить разрыв.

«Каждый день люди и команды изучают, создают и решают более сложные проблемы», — сказал Ник Терли, вице -президент Openai по продукту для CHATGPT, объявив о эталонном этапе пользователя. «Большая неделя впереди».

GPT-5 объединит мышления в систему отдельной ИИ

Предстоящая модель выходит за рамки постепенного обновления. По словам людей, проинформированных о проекте, которые говорили с информацией, GPT-5 будет интегрировать расширенные возможности Appenai из своей серии O3 непосредственно в флагманскую платформу GPT, создавая то, что генеральный директор Сэм Альтман назвал «системой, которая интегрирует многие из наших технологий».

Эта интеграция знаменует собой стратегический сдвиг для OpenAI, который ранее выпускал модели рассуждений отдельно от своих языковых моделей общего назначения. Объединяя эти возможности, компания стремится уменьшить путаницу пользователей относительно того, какую модель развертывает для конкретных задач при создании более мощной единой системы.

Оказывается, да! pic.twitter.com/yvszxksmkr
— Сэм Альтман (@Sama) 3 августа 2025 года

Консолидация также служит более широким амбициям Openai по достижению искусственного общего интеллекта, или AGI — этапа, которая вызвала бы значительные изменения в его партнерстве с Microsoft. В соответствии с их нынешним соглашением, достижение AGI заставит Microsoft отказаться от своих прав на доходы Openai и будущие модели, потенциально изменив одно из наиболее важных партнерских отношений в технологии.

Однако Альтман придерживался ожиданий, заявив, что после запуска GPT-5 не достигнет «уровня золота в течение многих месяцев», предполагая, что порог AGI остается за пределами немедленной досягаемости.

Бизнес -клиенты поднимаются до 5 миллионов, поскольку выручка достигает 13 миллиардов долларов

Рост пользователя отражает расширяющуюся роль Chatgpt в корпоративной Америке. В настоящее время OpenAI обслуживает 5 миллионов платежей бизнес -клиентов по сравнению с 3 миллионами в июне, поскольку предприятия все чаще интегрируют инструменты искусственного интеллекта в основные операции. Ежедневные пользовательские сообщения превзошли 3 миллиарда, отражая не только рост пользователей, но и усиливая взаимодействие с платформой.

Этот всплеск принятия бизнеса привел к годовому повторяющемуся доходу Openai до 13 миллиардов долларов, по сравнению с 10 миллиардами долларов в июне, и прогнозы предполагают, что он может превышать 20 миллиардов долларов до конца года. Рост выручки в сочетании с недавним раундом финансирования в размере 8,3 млрд. Долл. США, который стоил OpenAI на уровне 300 миллиардов долларов, обеспечивает финансовую основу для массовых инвестиций в инфраструктуру, необходимые для поддержания его технологического преимущества.

Эти инвестиции существенны. OpenAI посвятил себя годовой аренде на 30 миллиардов долларов с Oracle для пропускной способности центра обработки данных и заключила сделку в размере 11,9 млрд. Долл. США с облачным поставщиком Coreweave, планируя международное расширение благодаря таким партнерским отношениям, как Stargate Norway и крупный проект центра обработки данных в Абу -Даби.

Google, Meta и Anpropic Chase Openai’s Доминирующее лидерство

Быстрый рост достигается, когда OpenAI сталкивается с монтажным давлением со стороны хорошо финансируемых конкурентов, стремящихся захватить долю рынка. Продукт Google по поиску искусственного интеллекта, обзор AI, претендует на 2 миллиарда ежемесячных пользователей в более чем 200 странах, в то время как его приложение Gemini сообщает 450 миллионов активных пользователей в месяц. По сообщениям Bloomberg, Anpropic, подкрепленный значимыми инвестициями от Amazon и других.

Meta добилась значительных успехов со своими моделями Llama, в то время как Xai от Elon Musk продолжает привлекать внимание и инвестиции. Конкурсная ландшафт усилила гонку AI Arms, и компании вкладывают миллиарды в вычислительную инфраструктуру и приобретение талантов.

Конкурс вызвал талантливую войну среди технических гигантов. По сообщениям, Microsoft наняла более 20 сотрудников из команды Google DeepMind, в том числе бывшего руководителя Gemini Engineering Amar Subramanya, сообщается, что, как сообщается, как компании совершают набег друг друга таланты.

Chatgpt добавляет оздоровительные функции по мере роста проблем с искусственным интеллектом

Поскольку OpenAI стремится к необработанным улучшениям возможностей, компания также подчеркнула оптимизацию CHATGPT для благополучия пользователей и производительности. Компания недавно обрисовала в общих чертах усилия, чтобы помочь пользователям «процветать в том, как вы выбираете — не для того, чтобы привлечь ваше внимание, но чтобы помочь вам использовать его хорошо».

Мы создаем CHATGPT, чтобы помочь вам процветать в том, как вы выбираете — не для того, чтобы удержать ваше внимание, а чтобы помочь вам использовать его хорошо. Мы улучшаем поддержку трудных моментов, развернули напоминания о перерыве и разрабатываем лучшие консультации по жизни, и все это руководствуется экспертным введением.
— Openai (@openai) 4 августа 2025 года

Новые функции включают в себя напоминания о разрыве и улучшенную поддержку для сложных ситуаций, отражающих растущую осведомленность о психологических и социальных последствиях ИИ. Этот акцент на ответственном развертывании может оказаться решающим, поскольку регулирующий контроль усиливает и продолжается публичные дебаты о социальных последствиях ИИ.

Когда GPT-5 запустит, он будет включать несколько вариантов, в том числе MINI и NANO версии, доступные через API OpenAI, предоставляя разработчикам и предприятиям опции, адаптированные к различным вариантам использования и вычислительным требованиям.

700 миллионов пользователей сигнализируют о внедрении бизнеса ИИ

Конвергенция роста пользователей CATGPT и запуска GPT-5 знаменует собой ключевой момент для индустрии ИИ. Способность Openai поддерживать свое лидерство, в то время как конкуренты быстро продвигаются, вероятно, определит траекторию сектора на долгие годы.

Успех компании уже изменил то, как предприятия думают об интеграции искусственного интеллекта, перемещая технологии от экспериментальных проектов в основные операционные инструменты. На 700 миллионах пользователей показано, что это преобразование ускоряется, при этом последствия выходят далеко за рамки технологий на образование, творческие индустрий и работу по знаниям.

Для корпоративных клиентов рост пользователя обеспечивает уверенность в стабильности и долговечности CHATGPT-важнейшие факторы для организаций, делающих долгосрочные инвестиции в области искусственного интеллекта. Шкала платформы также создает сетевые эффекты, так как широкое распространение способствует улучшению обучения модели и разработки возможностей.

OpenAI теперь сталкивается с тестом, который будет определять будущее компании: может ли она преобразовать беспрецедентный рост пользователей в устойчивое доминирование на рынке. В поле, где вчерашний прорыв становится базовым уровнем завтрашнего дня, 700 миллионов пользователей могут стать только началом.

Источник

Новости

QWEN-Image-это мощный генератор изображений с открытым исходным кодом с поддержкой встроенного текста на английском и китайском языке

admin 05.08.2025

admin

После того, как он воспользовался летом с блицем мощного, свободно доступного нового языка с открытым исходным кодом и моделей искусственного искусственного искусства, которые совпадали или в некоторых случаях превзошли соперники с закрытым исходным кодом/проприетарными соперниками США, Крэка Alibaba «Команда QWEN» исследователей ИИ снова вернулась сегодня с выпуском новой модели генератора изображений искусственного интеллекта. — также открытый исходный код.

Qwen-Image выделяется в многолюдном поле генеративных моделей изображений из -за его Акцент на точное отображение текста в визуальных эффектах — область, где многие соперники до сих пор борются.

Поддерживая как алфавитные, так и логографические сценарии, модель особенно искусна в управлении сложной типографикой, многострочными макетами, семантикой уровня параграфа и Двуязычное содержание (например, английский китайский).

На практике это позволяет пользователям Создание контента, такого как плакаты из фильмов, слайды презентаций, сцены витрины, рукописную поэзию и стилизованную инфографику — С четким текстом, который соответствует их подсказкам.

Выходные примеры QWEN-Image включают в себя широкий спектр реальных вариантов использования:

Маркетинг и брендинг: Двуязычные плакаты с логотипами бренда, стилистической каллиграфией и последовательными мотивами дизайна
Проект презентации: Слайд-палубы с макетом с иерархиями заголовка и визуальными визуализациями, соответствующие теме
Образование: Поколение материалов в классе с диаграммами и точно отображаемым учебным текстом
Розничная торговля и электронная коммерция: Сцены магазина, где эти метки, вывески и экологический контекст должны быть читаемыми
Творческий контент: Рукописная поэзия, повествования сцены, иллюстрация в стиле аниме со встроенным текстом истории

Пользователи могут взаимодействовать с моделью на веб -сайте QWEN Chat, выбирая режим «генерация изображений» из кнопок под полем ввода приглашения.

Тем не менее, мои краткие первоначальные тесты показали, что текст и быстрое соблюдение были заметно лучше, чем Мидюрни, популярный проприетарный генератор изображений ИИ от одноименной компании США. Мой сеанс через Qwen Chat создал несколько ошибок в быстрого понимания и верности текста, к моему разочарованию, даже после повторяющихся попыток и быстрого переподключения:

Тем не менее, Midjourney предлагает только ограниченное количество свободных поколений и требует подписки на какие-либо больше, по сравнению с QWEN Image, которое, благодаря своему лицензированию с открытым исходным кодом и весом, размещенными на обнимании лица, могут быть приняты любым предприятием или сторонним поставщиком.

Лицензирование и доступность

QWEN-Image распределяется под Apache 2.0 лицензияразрешая коммерческое и некоммерческое использование, перераспределение и модификацию-хотя для производственных работ требуется атрибуция и включение текста лицензии.

Это может сделать его привлекательным для предприятий, ищущих инструмент генерации изображений с открытым исходным кодом для использования для создания внутреннего или внешнего обеспечения, таких как листовки, рекламы, уведомления, информационные бюллетени и другие цифровые коммуникации.

Но тот факт, что данные обучения модели остаются надежным секретом — Как и в большинстве других ведущих генераторов изображений ИИ — Может искусить некоторые предприятия в идее использования егоПолем

QWEN, в отличие от Adobe Firefly или Openai’s GPT-4O Generation, например, не предлагает компенсацию за коммерческое использование своего продукта (т. Е. Если пользователь будет предъявлен иск за нарушение авторских прав, Adobe и Openai помогут поддержать их в суде).

Модель и связанные с ними активы, включая демонстрационные записные книжки, инструменты оценки и сценарии с тонкой настройкой, доступны через несколько репозитории:

Qwen.ai
Обнимающееся лицо
Моделикоп
GitHub

Кроме того, живая оценка портала под названием AI Arena позволяет пользователям сравнивать поколения изображений в парных раундах, способствуя публичному таблицу лидеров в стиле ELO.

Обучение и развитие

За выступлением Qwen-Image находится Обширный процесс обучения, основанный на прогрессивном обучении, многомодальном выравнивании задач и агрессивном курировании данныхсогласно техническому документу, исследовательская группа, опубликованная сегодня.

Тренировочный корпус включает в себя миллиарды пар, полученных из четырех доменов: природные образы, человеческие портреты, художественное и контент-контент (такие как плакаты и макеты пользовательского интерфейса), а также синтетические текстовые данные. Команда QWEN не указала размер учебного корпусапомимо «миллиардов пар изображений текста». Они действительно обеспечили разбивку грубого процента каждой категории контента, который он включал:

Природа: ~ 55%
Дизайн (пользовательский интерфейс, плакаты, искусство): ~ 27%
Люди (портреты, человеческая деятельность): ~ 13%
Синтетическое текстовое рендеринг данных: ~ 5%

Примечательно, что QWEN подчеркивает, что все синтетические данные были сгенерированы внутри дома, и не использовалось изображения, создаваемые другими моделями ИИ. Несмотря на подробные описанные этапы курирования и фильтрации, Документация не уточняет, был ли какой -либо из данных лицензированными или взятыми из общедоступных или собственных наборов данных.

В отличие от многих генеративных моделей, которые исключают синтетический текст из-за риска шума, QWEN-Image использует строго контролируемые трубопроводы синтетического рендеринга для улучшения охвата символов, особенно для низкочастотных символов на китайском языке.

Используется стратегия в стиле учебного плана: модель начинается с простых подписных изображений и не текстового контентазатем достигает чувствительных к макеру сценариям текста, рендеринга смешанного языка и плотных абзацев. Этот Показано, что постепенное воздействие помогает модели обобщать сценарии и типы форматирования.

QWEN-Image интегрирует три ключевых модуля:

QWEN2.5-VLмодель мультимодального языка, извлекает контекстуальное значение и генерирует генерацию с помощью системных подсказок.
Vae Encoder/Декодеробученные документам с высоким разрешением и реальными макетами, обрабатывает подробные визуальные представления, особенно небольшой или плотный текст.
Mmditосновная цепочка диффузионной модели, координирует совместное обучение через модальности изображения и текста. Новая система MSROPE (мультимодальная масштабируемая вращающаяся позиционная кодировка) улучшает пространственное выравнивание между токенами.

Вместе эти компоненты позволяют QWEN-Image эффективно работать в задачах, которые включают понимание изображения, генерацию и точное редактирование.

Производительность

QWEN-Image был оценен по нескольким общественным критериям:

Женевальный и DPG Для быстрого следования и последовательности атрибута объекта
Oneig-Bench и Tiif для композиционных рассуждений и верности макета
CVTG-2KВ Китайское словои Longtext-Bench для рендеринга текста, особенно в многоязычных контекстах

Почти в каждом случае QWEN-Image либо совпадает, либо превосходит существующие модели с закрытым исходным кодом, такие как GPT Image 1 (High), SeedReam 3.0 и Flux.1 Kontext (Pro). Примечательно, что его эффективность на китайском текстовом рендеринге была значительно лучше, чем все по сравнению с системами.

На публичной таблице лидеров AI ARE ARENA-на основе 10 000+ парных сравнений человека-QWEN-Image занимает третье место в общем зачете и является главной моделью с открытым исходным кодом.

Последствия для лиц, принимающих предприятия, принимают технические решения

Для команд AI Enterprise, управляющих сложными мультимодальными рабочими процессами, QWEN-Image представляет несколько функциональных преимуществ, которые соответствуют оперативным потребностям различных ролей.

Те, кто управляет жизненным циклом моделей на языке зрения-от обучения до развертывания-Уилl Найти ценность в постоянном качество вывода QWEN-Image и его готовых к интеграции компонентам. Природа с открытым исходным кодом снижает затраты на лицензирование, в то время как модульная архитектура (QWEN2,5-VL + VAE + MMDIT) облегчает адаптацию к пользовательским наборам данных или тонкую настройку для специфических для домена выходов.

А Данные обучения в стиле учебного плана и результаты четких эталон помогают командам оценить физическую форму для цели. Развертывание маркетинговых визуальных эффектов, визуализации документов или графики продукта электронной коммерции, QWEN-Image обеспечивает быстрые эксперименты без проприетарных ограничений.

Инженеры Порученная построением трубопроводов ИИ или развертывания моделей в разных распределенных системах, оценит подробную документацию по инфраструктуре. Модель была обучена с использованием архитектуры производителя-потребителя, поддерживает масштабируемую обработку с несколькими разрешениями (256p до 1328p) и создана для работы с параллелизмом Megatron-LM и тензора. Этот делает QWEN-Image кандидатом на развертывание в гибридных облачных средах, где надежность и пропускная способность.

Кроме того, поддержка рабочих процессов редактирования изображений на изображение (TI2I) и подсказки для конкретной задачи позволяет использовать его в реальном времени или интерактивных приложениях.

Профессионалы сосредоточены на приеме данных, валидации и преобразовании может использовать QWEN-Image в качестве инструмента для создания синтетических наборов данных для обучения или расширения моделей компьютерного зрения. Его способность генерировать изображения с высоким разрешением со встроенными, многоязычными аннотациями может повысить производительность в задачах с OCR, обнаружением объектов или расположением макетов.

Так как Qwen-Image был также обучен избегать артефактов, таких как QR -кодыискаженный текст и водяные знаки, он предлагает более качественный синтетический вклад, чем многие общедоступные модели-помогая предпринимаемым командам сохранять целостность набора обучения.

Ищу отзывы и возможности для сотрудничества

Команда QWEN подчеркивает открытость и сотрудничество сообщества в выпуске модели.

Разработчикам рекомендуется тестировать и настраивать QWEN-Image, предлагать запросы на привлечение и участвовать в таблице лидеров оценки. Обратная связь по рендеринге текста, редактированию верности и многоязычных вариантов использования будет формировать будущие итерации.

С заявленной целью «снизить технические барьеры для создания визуального контента», команда надеется, что QWEN-Image будет служить не только как модель, но и в качестве основы для дальнейших исследований и практического развертывания в разных отраслях.

Источник

Новости

Почему лучшие разработчики завтрашнего дня не будут просто кодировать — они будут курировать, координировать и командовать ИИ

admin 05.08.2025

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Поскольку ИИ продолжает принимать все больше и больше новых компетенций, младший кодирование, как мы его знали, быстро становится прошлым. Задачи, которые раньше были хлебом и маслом для младших разработчиков, таких как повторяющиеся сценарии, макет HTML или простые настройки DevOps, теперь надежно обрабатываются такими помощниками искусственного интеллекта, как CHATGPT, Github Copilot и Amazon Codewhisperer.

Это не просто обновление до скорости и эффективности — мы смотрим на серьезные структурные изменения здесь. Так, где это оставляет разработчиков начального уровня? И, говоря более широко, где это покидает индустрию программного обеспечения в целом?

Уровень исчезновения новичка

В течение десятилетий разработка программного обеспечения в качестве поля имела довольно предсказуемый путь: начните с оснований, создайте некоторые целевые страницы, пишите тестовые примеры, устраняют небольшие ошибки. По мере роста ваших навыков вы можете двигаться к архитектурному мышлению и владению продуктом.

Но теперь ИИ значительно меняет, как работает нижний конец этой лестницы, поскольку он может выполнять большинство задач на юниорском уровне самостоятельно.

В результате начинающих, въезжающих в отрасль, все чаще просят внести свой вклад на уровне, который требует многолетнего опыта. Речь идет не только о написании кода — речь идет о понимании систем, структурировании проблем и работе вместе с ИИ, таким как член команды. Это высокий заказ. Тем не менее, я верю, что есть путь вперед. Это начинается с изменения способа, которым мы учимся.

Если вы только начинаете, не полагайтесь на ИИ, чтобы добиться цели. Это заманчиво, конечно, но в конечном итоге это также вредно. Если вы пропустите ручную практику, вы упускаете в виду более глубокое понимание того, как на самом деле работает программное обеспечение. Это понимание имеет решающее значение, если вы хотите превратиться в такого рода разработчика, который может руководить, архитектор и направлять ИИ вместо того, чтобы быть замененным им.

То, как я вижу это в ближайшем будущем, самые ценные люди в технологии не будут теми, кто пишет идеальный код. Это будут те, кто знает, что должно быть построено, почему это важно и как заставить систему ИИ выполнять большую часть работы чисто и эффективно. Другими словами, программист завтрашнего дня больше похож на менеджера по продукту с твердым техническим опытом.

Команды тоже меняются

Исходя из всего, что мы рассмотрели выше, я также чувствую необходимость отметить, что не только люди, которым необходимо переосмыслить свои роли. Целые команды меняются. Там, где мы когда-то имели четко определенные роли-фронт-разработчик, специалист по бэк-энд, инженер DevOps, QA-тестер,-мы скоро увидим, как один разработчик управляет целым трубопроводом с помощью ИИ.

Разработчики с AI-Augment заменит крупные команды, которые раньше были необходимы для продвижения проекта вперед. С точки зрения эффективности, есть что праздновать об этом изменении — сокращении времени общения, более быстрых результатов и более высоких батончиков для того, чего может реалистично достичь один человек.

Но, конечно, это не означает, что команды вообще исчезнут. Просто структура изменится. Сотрудничество будет сосредоточено больше на стратегических решениях, выравнивании продукции и обеспечении ответственного и эффективного использования инструментов ИИ. Человеческий вход будет меньше о реализации и больше о направлении.

ИИ создает новый карьерный путь

Если мы посмотрим на пять -семь лет вперед, я подозреваю, что идея «разработчика», как мы его знаем сегодня, изменится на что -то еще. Скорее всего, мы увидим больше гибридных ролей — разработчик частично, детали, частично мыслитель продукта. Как уже упоминалось, основной частью работы не будет писать код, а для формирования идей в рабочее программное обеспечение с использованием ИИ в качестве основного инструмента создания. Или, возможно, даже как соавтор.

Быть технически свободно владеет решающим требованием, но этого не будет достаточно, чтобы просто знать, как кодировать. Вам нужно будет понять мышление продукта, потребности пользователей и как управлять выводом ИИ. Это будет больше о разработке системы и стратегическом видении.

Для некоторых это может показаться пугающим, но для других это также откроет много дверей. Люди с творчеством и ловкостью для решения проблем будут иметь огромные возможности.

Ландшафт меняется, да — этого факта нет. Но для тех, кто хочет адаптироваться, можно утверждать, что это меняется в их пользу. Конец юношеского кодирования — это не конец обучения. Это признак того, что нам нужно пересмотреть, какие таланты мы выращиваем, как мы структурируем команды, и что делает кого -то великим разработчиком.

На мой взгляд, вместо того, чтобы оплакивать потерю основных задач, отрасль в целом должна сосредоточиться на создании навыков, которые не могут быть автоматизированы. По крайней мере, пока нет. Это означает реализацию гибридного подхода и обучение, как работать с ИИ в качестве партнера, а не конкурента.

Роман Элошвили является основателем ComplyControl.

Источник

Новости

Почему эпоха ИИ заставляет редизайн всей вычислительной основы

admin 04.08.2025

admin

В последние несколько десятилетий почти невообразимые достижения в вычислении производительности и эффективности, обеспечиваемых законом Мура и подкрепленным масштабированием товарного оборудования и слабо связанным программным обеспечением. Эта архитектура предоставила онлайн -сервисы на миллиарды во всем мире и поставила практически все человеческие знания в наших кончиках пальцев.

Но следующая вычислительная революция потребует гораздо больше. Выполнение обещания ИИ требует пошагового изменения возможностей, намного превышающих достижения в интернет-эре. Чтобы достичь этого, мы, как отрасль, должны вернуться к некоторым основаниям, которые привели к предыдущему преобразованию и внедряют инновации, чтобы переосмыслить весь технологический стек. Давайте рассмотрим силы, движущие это потрясением, и рассмотрим, как должна выглядеть эта архитектура.

От товарного оборудования до специализированного вычисления

В течение десятилетий доминирующей тенденцией в вычислениях была демократизация вычислений посредством масштабирования архитектур, основанных на почти идентичных товарных серверах. Эта единообразия позволила для гибкой размещения рабочей нагрузки и эффективного использования ресурсов. Требования искусственного интеллекта, в значительной степени зависящие от предсказуемых математических операций на массовых наборах данных, меняют эту тенденцию.

В настоящее время мы наблюдаем решающий сдвиг в сторону специализированного оборудования, включая ASICS, графические процессоры и подразделения по обработке тензоров (TPU), которые обеспечивают заказы на улучшение производительности на доллар и за ватт по сравнению с CPU общего назначения. Это пролиферация доменных вычислительных единиц, оптимизированных для более узких задач, будет иметь решающее значение для продвижения продолжающихся быстрых достижений в области искусственного интеллекта.

За пределами Ethernet: рост специализированных соединений

Эти специализированные системы часто требуют общения «все-все», с пропускной способностью терабит на секунду и наносекундными задержками, которые приближаются к локальной скорости памяти. Сегодняшние сети, в основном основанные на коммутаторах Commodity Ethernet и протоколах TCP/IP, плохо оснащены этими крайними требованиями.

В результате, чтобы масштабировать рабочую нагрузку Gen AI в обширных кластерах специализированных ускорителей, мы видим рост специализированных взаимодействий, таких как ICI для TPU и NVLink для графических процессоров. Эти специально построенные сети определяют приоритеты прямых трансфертов памяти в память и используют выделенное оборудование для ускорения обмена информацией между процессорами, эффективно обходя накладные расходы на традиционные многослойные сетевые стеки.

Этот шаг в направлении строго интегрированного, ориентированного на вычислительные сети будет иметь важное значение для преодоления узких мест связи и эффективного масштабирования AI следующего поколения.

Разбивая стену памяти

В течение десятилетий прирост производительности в вычислениях опередил рост полосы пропускания памяти. В то время как такие методы, как кэширование и сложенное SRAM, частично смягчили это, интенсивный характер ИИ, интенсивный данных, только усугубляет проблему.

Нео кислого необходимого кормления все более мощные вычислительные блоки привели к памяти с высокой пропускной способностью (HBM), которая складывает DRAM непосредственно на пакет процессора, чтобы повысить пропускную способность и уменьшить задержку. Тем не менее, даже HBM сталкивается с фундаментальными ограничениями: физический периметр чипа ограничивает общий поток данных, а перемещение массивных наборов данных на скоростностях Terabit создает значительные энергетические ограничения.

Эти ограничения подчеркивают критическую потребность в подключении с более высокой пропускной способностью и подчеркивают срочность для прорывов в обработке и архитектуре памяти. Без этих инноваций наши мощные вычислительные ресурсы будут сидеть на холостом ходу, ожидая данных, что значительно ограничивает эффективность и масштаб.

От серверных ферм до систем высокой плотности

Сегодняшние модели передового машинного обучения (ML) часто полагаются на тщательно организованные расчеты в течение десятков до сотен тысяч идентичных вычислительных элементов, потребляющих огромную власть. Эта плотная связь и мелкозернистая синхронизация на микросекундном уровне предъявляют новые требования. В отличие от систем, которые охватывают неоднородность, вычисления ML требуют однородных элементов; Смешивание поколений будет узким местом быстрее. Пути связи также должны быть заранее спланированы и высокоэффективны, поскольку задержки в одном элементе могут задержать весь процесс.

Эти крайние требования к координации и власти способствуют необходимости беспрецедентной плотности вычислений. Минимизация физического расстояния между процессорами становится необходимым для уменьшения задержки и энергопотребления, прокладывая путь для нового класса сверхплозных систем ИИ.

Это стремление к чрезвычайной плотности и тесно скоординированной вычислениям в основном изменяет оптимальный дизайн инфраструктуры, требуя радикального переосмысления физических макетов и динамического управления питанием для предотвращения узких мест производительности и максимизации эффективности.

Новый подход к устойчивости к ошибкам

Традиционная толерантность к разлому зависит от избыточности среди слабо связанных систем для достижения высокого времени безотказной работы. ML Computing требует другого подхода.

Во-первых, масштаб вычислений слишком дорогим. Во -вторых, модельное обучение является тесно синхронизированным процессом, где один сбой может каскад для тысяч процессоров. Наконец, усовершенствованное оборудование ML часто подталкивает к границе текущей технологии, что потенциально приводит к более высокой частоте отказов.

Вместо этого появляющаяся стратегия включает в себя частые контрольно-пропускные пункты-сохранение состояния вычислений-в сочетании с мониторингом в реальном времени, быстрого распределения запасных ресурсов и быстрых перезапуска. Базовый аппаратный и сетевой дизайн должен обеспечить быстрое обнаружение сбоев и замену компонентов для обеспечения производительности.

Более устойчивый подход к власти

Сегодня и с нетерпением жду, доступ к питанию является ключевым узким местом для масштабирования вычислительного искусства. В то время как традиционный дизайн системы фокусируется на максимальной производительности на чип, мы должны перейти к сквозному дизайну, сфокусированной на доставленных, а также масштабных производительности на ватт. Этот подход жизненно важен, потому что он рассматривает все компоненты системы — вычислительные, сеть, память, доставку питания, охлаждение и устойчивость к разломам — беспрепятственно совместно для поддержания производительности. Оптимизация компонентов в изоляции сильно ограничивает общую эффективность системы.

Поскольку мы стремимся к повышению производительности, отдельные чипы требуют большей мощности, часто превышающей охлаждающую способность традиционных центров обработки данных с воздушным охлаждением. Это требует сдвига в сторону более энергоемких, но, в конечном счете, более эффективных решениях с жидким охлаждением и фундаментальной модернизации инфраструктуры охлаждения центра обработки данных.

Помимо охлаждения, обычные избыточные источники энергии, такие как двойные коммунальные каналы и дизельные генераторы, создают существенные финансовые затраты и медленную доставку. Вместо этого мы должны объединить различные источники питания и хранилище в масштабе с несколькими гигаваттами, управляемыми контроллерами микросетей в реальном времени. Используя гибкость рабочей нагрузки ИИ и географическое распределение, мы можем предоставить большую возможность без дорогих систем резервного копирования, необходимых всего несколько часов в год.

Эта развивающаяся модель мощности обеспечивает реакцию в режиме реального времени на доступность мощности-от выключения вычислений во время нехватки до передовых методов, таких как масштабирование частоты для рабочих нагрузок, которые могут переносить снижение производительности. Все это требует телеметрии и активации в реальном времени на уровнях, недоступных в настоящее время.

Безопасность и конфиденциальность: запека

Критический урок из интернет -эры заключается в том, что безопасность и конфиденциальность не могут быть эффективно прикреплены к существующей архитектуре. Угрозы со стороны плохих актеров будут расти более сложными, требуя защиты пользовательских данных и запатентованной интеллектуальной собственности, которая будет встроена в структуру инфраструктуры ML. Одним из важных наблюдений является то, что ИИ, в конце концов, улучшит возможности злоумышленников. Это, в свою очередь, означает, что мы должны убедиться, что ИИ одновременно переказывает нашу защиту.

Это включает в себя сквозное шифрование данных, надежное отслеживание линии данных с проверкой журналов доступа, оборудованные границы безопасности для защиты конфиденциальных вычислений и сложных систем управления ключами. Интеграция этих гарантий с нуля будет иметь важное значение для защиты пользователей и поддержания их доверия. Мониторинг в режиме реального времени того, что, вероятно, будет лепабитами/сек телеметрии и ведения журнала, будет ключом к выявлению и нейтрализации векторов атаки иглы в ходе, в том числе из инсайдерских угроз.

Скорость как стратегический императив

Ритм обновлений аппаратного обеспечения резко изменился. В отличие от инкрементной эволюции традиционной инфраструктуры за расточим, развертывание суперкомпьютеров ML требует принципиально другого подхода. Это связано с тем, что Compute ML не легко запускается при гетерогенных развертываниях; Код Compute, алгоритмы и компилятор должны быть специально настроены для каждого нового генерации оборудования, чтобы полностью использовать свои возможности. Скорость инноваций также беспрецедентна, что часто обеспечивает два или более в годовом исчислении из года в годовом исчислении от нового оборудования.

Следовательно, вместо дополнительных обновлений требуется массовый и одновременный развертывание гомогенного оборудования, часто во всех центрах обработки данных. Благодаря ежегодным обновлениям аппаратного обеспечения, обеспечивающих улучшение производительности целочисленного фактора, способность быстро выдерживать эти колоссальные двигатели ИИ имеют первостепенное значение.

Цель должна заключаться в сжатии сроков от проектирования до полного эксплуатационного развертывания чипов 100 000 человек, что обеспечивает повышение эффективности при поддержке алгоритмических прорывов. Это требует радикального ускорения и автоматизации каждого этапа, требуя производственной модели для этих инфраструктур. От архитектуры до мониторинга и ремонта, каждый шаг должен быть оптимизирован и автоматизирован для использования каждой генерации оборудования в беспрецедентном масштабе.

Встреча с момента: коллективные усилия для инфраструктуры ИИ следующего поколения

Рост Gen AI отмечает не только эволюцию, но и революцию, которая требует радикальной переосмысления нашей компьютерной инфраструктуры. Проблемы, предстоящие — в специализированном оборудовании, взаимосвязанных сетях и устойчивых операциях — являются значительными, но также является преобразующим потенциалом искусственного интеллекта, который он позволит.

Легко видеть, что наша полученная вычислительная инфраструктура будет неузнаваем в течение нескольких лет вперед, что означает, что мы не можем просто улучшить чертежи, которые мы уже разработали. Вместо этого мы должны коллективно, от исследований к промышленности, приступить к попытке пересмотреть требования ИИ вычислить из первых принципов, создав новый план для базовой глобальной инфраструктуры. Это, в свою очередь, приведет к принципиально новым возможностям, от медицины до образования до бизнеса, в беспрецедентном масштабе и эффективности.

Amin Vahdat является VP и GM для машинного обучения, систем и облачного AI в Google Cloud.

Источник

Новости

Модель нового видения от Cohere работает на двух графических процессорах, бьет VLM высшего уровня по визуальным задачам

admin 04.08.2025

admin

Рост в глубоких исследованиях и других анализах с искусственным интеллектом вызвал больше моделей и услуг, стремящихся упростить этот процесс и прочитать больше документов, которые фактически используют предприятия.

Canadian Ai Company Cohere занимается банковской деятельностью на своих моделях, в том числе недавно выпущенной визуальной модели, чтобы обосновать, что функции глубоких исследований также должны быть оптимизированы для предприятий.

Компания выпустила Conding Vision, визуальную модель, специально предназначенную для предприятий, созданных на задней части своей команды модели. Модель параметров 112 миллиардов может «разблокировать ценную информацию из визуальных данных и принимать высокие точные, управляемые данными решениями посредством распознавания оптических символов документа (OCR) и анализа изображений»,-говорится в компании.

«Будь то интерпретация руководств по продукту со сложными диаграммами или анализ фотографий сцен реального мира для обнаружения рисков, приказывает видение преуспевает в решении наиболее требовательных проблем с предпринимательством»,-говорится в сообщении в блоге.

Это означает, что команда. Видение может читать и анализировать наиболее распространенные типы изображений, которые необходимы для предприятий: графики, диаграммы, диаграммы, отсканированные документы и PDF.

? @cohere Только что бросил команду видение на @huggingface ?

Разработано для предприятия мультимодальные варианты использования: интерпретация руководств по продукту, анализ фотографий, справление о диаграммах… ❓ ??

112b Площадь на языке зрения с производительностью SOTA-посмотрите на эталонные метрики в… pic.twitter.com/ormfm5f8cf
— Джефф Бодье? (@jeffboudier) 31 июля 2025 года

Поскольку он построен на архитектуре команды A, команда Vision требует два или меньше графических процессоров, как и текстовая модель. Модель видения также сохраняет текстовые возможности команды A для чтения слов на изображениях и понимает как минимум 23 языка. Cohere сказал, что, в отличие от других моделей, Command Vision снижает общую стоимость владения предприятиями и полностью оптимизирован для извлечения вариантов использования для предприятий.

Как совместно архивирует команда

Cohere сказал, что он последовал за архитектурой Llava, чтобы создать свою команду модели, включая визуальную модель. Эта архитектура превращает визуальные особенности в токены мягких зрений, которые можно разделить на разные плитки.

Эти плитки передаются в команду «Текстовую башню», «Продление, 111b параметры текстового LLM», сказала компания. «Таким образом, один изображение потребляет до 3328 токенов».

Cohere сказал, что он обучил визуальную модель на трех этапах: выравнивание языка зрения, контролируемая тонкая настройка (SFT) и обучение подкрепления после тренировки с обратной связью с человеком (RLHF).

«Этот подход позволяет отображать функции Emage Encoder с языковой моделью, встраивающей пространство», — сказали в компании. «Напротив, на стадии SFT мы одновременно обучали энкодера зрения, адаптер зрения и языковую модель на разнообразном наборе мультимодальных задач, посвященных инструкциям».

Визуализация Enterprise AI

Контрольные тесты показали, что видение превосходит другие модели с аналогичными визуальными возможностями.

Команда Cohere Command Видение против GPT Openai 4.1, Meta’s Llama 4 Maverick, Pixtral Fixtral и Mistral Medium 3 в девяти эталонных тестах. Компания не упомянула, проверила ли она модель против API, ориентированного на OCR, Mishstral OCR.

Это позволяет агентам надежно видеть внутри визуальных данных вашей организации, открывая автоматизацию утомительных задач, включающих слайды, диаграммы, PDF -файлы и фотографии. pic.twitter.com/ihznuwekrk
— cohere (@cohere) 31 июля 2025 года

Командование видение обогнало другие модели в тестах, таких как Chartqa, Ocrbench, AI2D и TextVQA. В целом, Command Vision имела средний балл 83,1% по сравнению с 78,6% GPT, 78,6%, 80,5% Llama 4 и 78,3% от Mistral Medium 3.

В наши дни большинство крупных языковых моделей (LLMS) являются мультимодальными, что означает, что они могут генерировать или понимать визуальные носители, такие как фотографии или видео. Тем не менее, предприятия обычно используют больше графических документов, таких как диаграммы и PDF, поэтому извлечение информации из этих неструктурированных источников данных часто оказывается трудным.

Благодаря глубокому исследованию роста, важность внедрения моделей, способных читать, анализировать и даже загружать неструктурированные данные.

Cohere также заявила, что предлагает команду видение в системе открытых весов, в надежде, что предприятия, стремящиеся отойти от закрытых или проприетарных моделей, начнут использовать свои продукты. До сих пор есть некоторый интерес со стороны разработчиков.

Очень впечатлен его точностью, извлекая ручные рукописные ноты с изображения!
— Адам Сардо (@sardo_adam) 31 июля 2025 года

Наконец, ИИ, который не будет судить о моих ужасных рисунках.
— Марта Мудрец? (@martwisener) 1 августа 2025 года

Источник

Новости

Почему ИИ с открытым исходным кодом стал американским национальным приоритетом

admin 03.08.2025

admin

Когда президент Трамп опубликовал план действий по искусству в США на прошлой неделе, многие из них были удивлены, увидев «поощрять ИИ с открытым исходным кодом и открытым весом» в качестве одного из главных приоритетов администрации. Белый дом поднял то, что когда -то было очень технической темой в неотложную национальную заботу — и ключевую стратегию победы в гонке искусственного интеллекта против Китая.

Акцент Китая на Open Source, также подчеркнутый в своем собственном плане действий, опубликованном вскоре после США, делает императив с открытым исходным кодом. И глобальная мягкая сила, которая поставляется с более открытыми моделями из Китая, делает их недавнее руководство еще более заметным.

Когда DeepSeek-R1, мощная большая языковая модель с открытым исходным кодом (LLM) из Китая, была выпущена ранее в этом году, она не была с пресс-туром. Никаких ярких демонстраций. Нет основных выступлений. Но это были открытые веса и открытая наука. Открытый вес означает, что любой с правильными навыками и вычислительными ресурсами может работать, воспроизвести или сделать модель своей собственной; Open Science разделяет некоторые уловки, стоящие за разработкой модели.

Через несколько часов исследователи и разработчики захватили на это. Через несколько дней это стало самой любимой моделью всех времен Объятно — с тысячами вариантов, созданных и использованных в крупных технологических компаниях, исследовательских лабораторий и стартапов. Наиболее поразительно, этот взрыв усыновления произошел не только за рубежом, но и в США Впервые американский ИИ строился на китайских фондах.

DeepSeek не был единственным

В течение недели фондовый рынок США — ощущая тремор — упал.

Оказывается, DeepSeek был лишь вступительным актом. Десятки китайских исследовательских групп в настоящее время продвигают границы искусственного интеллекта с открытым исходным кодом, разделяя не только мощные модели, но и данные, код и научные методы. Они движутся быстро — и делают это на открытом воздухе.

Между тем, американские компании, многие из которых впервые выступали в современную революцию ИИ, все чаще закрываются. Флагманские модели, такие как GPT-4, Claude и Gemini, больше не выпускаются способами, которые позволяют строителям больше контроля. Они доступны только через чат -боты или API: закрытые интерфейсы, которые позволяют вам взаимодействовать с моделью, но не видят, как это работает, перепроизводите или используйте их свободно. Вес модели, данные обучения и поведение остаются собственными, строго контролируемыми несколькими техническими гигантами.

Это драматическое изменение. В период с 2016 по 2020 год США были а Глобальный лидер в области искусственного интеллекта с открытым исходным кодом. Исследовательские лаборатории от Google, Openai, Stanford и других мест выпустили прорывные модели и методы, которые заложили основу для всего, что мы сейчас называем «ИИ». Трансформер — «T» в Chatgpt — родился из этой открытой культуры. Объятие лица было создано в эту эпоху для демократизации доступа к этим технологиям.

Теперь США проскальзывают, и последствия глубоки.

Американские ученые, стартапы и учреждения все чаще стремятся строить на открытых моделях китайцев, потому что лучшие американские модели заблокированы за API. Когда каждая новая открытая модель появляется из -за рубежа, китайские компании, такие как Deepseek и Alibaba, укрепляют свои позиции в качестве основополагающих слоев в глобальной экосистеме ИИ. Инструменты, которые поддерживают America в следующем поколении продуктов, исследований и инфраструктуры America, все чаще происходят из -за рубежа.

И на более глубоком уровне существует более фундаментальный риск: каждое продвижение в области искусственного интеллекта, включая наиболее закрытые системы, построен на открытых фундаментах. Собственные модели зависят от открытых исследований, от трансформаторной архитектуры до учебных библиотек и структур оценки. Но что еще более важно, открытый источник увеличивает скорость страны в строительстве ИИ. Он подпитывает быстрые эксперименты, снижает барьеры для входа и создает составные инновации.

Когда открытость замедляется, вся экосистема следует. Если США сегодня отстают в открытом исходном коде, это может оказаться в ИИ в целом.

Отказ от Black Box AI

Это имеет значение не только для инноваций, но и для безопасности, науки и демократического управления. Открытые модели прозрачны и проверены. Они позволяют правительствам, преподавателям, медицинским учреждениям и малым предприятиям адаптировать ИИ к своим потребностям, без заблокированных поставщиков или зависимостей черного ящика.

Нам нужно больше и лучше, разработанные США, модели с открытым исходным кодом и артефакты. Американские учреждения, уже стремящиеся к открытости, должны опираться на их успех. Семейство Llama’s LlaMa от Meta привела к тому, что десятки тысяч вариаций об объятиях. Алленский институт ИИ продолжает публиковать отличные полностью открытые модели. Многообещающие стартапы, такие как Brand Forest, создают открытые мультимодальные системы. Даже OpenAI предположил, что в ближайшее время он может выпустить открытые веса.

Благодаря более общественной и политической поддержке ИИ с открытым исходным кодом, как продемонстрировано Планом действий США, мы можем перезапустить децентрализованное движение, которое обеспечит лидерство Америки. Пришло время американскому сообществу искусственного интеллекта проснуться, отбросить повествование «Открыть не безопасно» и вернуться к его корням: открытый ИИ и ИИ с открытым исходным кодом, основанный на непревзойденном сообществе пограничных лабораторий, больших технологий, стартапов, университетов и некоммерческих организаций.

Мы можем перезапустить децентрализованное движение, которое обеспечит лидерство США, основанное на открытости, конкуренции и научных исследованиях, и расширит возможности следующего поколения строителей. Если мы хотим, чтобы ИИ отражал демократические принципы, мы должны построить его на открытом воздухе. И если США хотят возглавить гонку ИИ, это должно возглавить гонку ИИ с открытым исходным кодом.

Clément Delangue является соучредителем и генеральным директором Houging Face.

Источник

Новости

Google выпускает олимпиаду, завоевавшую медаль Близнецов, 2,5 ‘глубиной, думайте,-публично-но есть улов …

admin 02.08.2025

admin

Google официально запустил Gemini 2.5 Deep Think, новую вариацию своей модели ИИ, разработанной для более глубоких рассуждений и сложного решения проблем, которая в прошлом месяце сделала заголовки для завоевания золотой медали на Международной математической олимпиаде (IMO)-впервые модель ИИ достигла подвига.

Однако, Это, к сожалению нет Идентичная модель золотой медали. На самом деле это менее мощная «бронза» версия в блоге Google и Logan Kilpatrick, лидерство продукта для Google AI Studio.

Как разместил Килпатрик в социальной сети x: «Это вариация нашей модели IMO Gold, которая быстрее и более оптимизирована для ежедневного использования. Мы также даем полную модель IMO Gold для набора математиков для проверки стоимости полных возможностей».

Теперь доступно через мобильное приложение GeminiЭта бронзовая модель доступна для подписчиков самого дорогого индивидуального плана ИИ Google, AI Ultra, который стоит 249,99 долл. США в месяц с 3-месячным стартовым продвижением по сокращению ставки в 124,99 долл. США в месяц для новых подписчиков.

Google также сказал в своем сообщении в блоге, что он принесет глубоко мысли с интеграцией использования инструментов для «доверенных тестеров» через интерфейс прикладного программирования Gemini (API) «в ближайшие недели».

Почему «глубокие мысли» настолько сильна

Gemini 2.5 Deep Think основан на семействе крупных языковых моделей Близнецов (LLMS), добавляя новые возможности, направленные на рассуждение с помощью сложных проблем.

Это Использует методы «параллельного мышления» для одновременного изучения нескольких идей и включает в себя обучение подкреплению для укрепления своей пошаговой способности решать проблемы с течением времени.

Модель есть Разработано для вариантов использования, которые выигрывают от расширенного обсуждения, таких как тестирование математических предположений, научные исследования, дизайн алгоритма, и творческие задачи итерации, такие как уточнение кода и дизайна.

Ранние тестеры, в том числе математики, такие как Мишель Ван Гаррел, использовали его для исследования нерешенных проблем и создания потенциальных доказательств.

Пользователь и эксперт ИИ власть Итан Моллик, профессор Школы бизнеса Уортон в Университете Пенсильвании, также опубликованный на X, что он мог привлечь внимание, которое он часто использует, чтобы проверить возможности новых моделей — «Создать то, что я могу вставить в P5J, что замагтело меня с его умностью в создании чего -то, что вызывает у групп управления в дикой будущей» и и в будущем превратил его в 3D -графику, которая впервые сделала любая модельПолем

Был ранний доступ к Близнецам с глубоким мышлением. Очень хорошая модель, большой прирост по сравнению с стандартным Gemini 2.5 Pro для многих проблем.

Вот первая попытка в подсказке управления Starship, которую я попробую с каждой моделью. В первый раз я увидел модель, создавая 3D -интерфейс в ответ. pic.twitter.com/blff2icop3
— Итан Моллик (@emollick) 1 августа 2025 года

Производительные показатели и варианты использования

Google выделяет несколько ключевых областей применения для глубокого размышления:

Математика и наука: Модель может имитировать рассуждение для сложных доказательств, изучить предположения и интерпретировать плотную научную литературу
Кодирование и дизайн алгоритма: Он хорошо выполняет задачи, включающие компромиссы эффективности, сложность времени и многоэтапную логику
Творческое развитие: В сценариях дизайна, таких как создание Voxel Art или пользовательское интерфейс, Deep Think демонстрирует более сильное итерационное улучшение и улучшение деталей

Модель также Выводит производительность в эталонных оценках, таких как LiveCodebench V6 (для способности кодирования) и последний экзамен человечества (охватывая математику, науку и рассуждения).

Это OutScored Gemini 2.5 Pro и конкурирующие модели, такие как GPT-4 и Xai’s Grok 4 с двузначными маржа по некоторым категориям (рассуждения и знания, генерация кода и математика IMO 2025).

Gemini 2.5 Deep Think vs. Gemini 2.5 Pro

В то время как Deep Think и Gemini 2.5 Pro являются частью семейства моделей Gemini 2.5, Google Deep Deep Think как более способный и аналитически квалифицированный вариантособенно когда дело доходит до сложных рассуждений и многоэтапного решения проблем.

Это улучшение связано с использованием параллельное мышление и Подкрепление методов обучениякоторые позволяют модели моделировать более глубокое когнитивное обсуждение.

В своем официальном общении Google описывает глубокие думать как лучше в Обработка нюансированных подсказок, изучение нескольких гипотез и создание более утонченных результатовПолем Это подтверждается бок о бок сравнения в генерации воксель, где Deep Think добавляет больше текстуры, структурной верности и составного разнообразия, чем 2,5 Pro.

Улучшения не просто визуальные или анекдотичные. Google сообщает, что глубоко думайте Overperforms Gemini 2.5 Pro по нескольким техническим показателям Связано с рассуждением, генерацией кода и междоменной экспертизой. Тем не менее, эти выгоды сопровождаются компромиссами в отзывчивости и быстрое принятие.

Вот срыв:

Способность / атрибут	Близнецы 2.5 Pro	Gemini 2,5 Deep Think
Скорость вывода	Быстрее, низкая задержка	Медленнее, расширенное «время мышления»
Сложность рассуждений	Умеренный	Высокий — использует параллельное мышление
Быстрое глубина и творчество	Хороший	Более подробный и нюансированный
Эталонная производительность	Сильный	Уровень развития
Объективность безопасности контента и тона	Улучшен по сравнению с более старыми моделями	Дальнейшее улучшение
Уровень отказа (доброкачественные подсказки)	Ниже	Выше
Длина вывода	Стандартный	Поддерживает более длительные ответы
Воксель искусство / дизайн.	Основная структура сцены	Улучшенные детали и богатство

Google отмечает, что Более высокий уровень отказа это область активного расследования. Это может ограничить его гибкость при обработке неоднозначных или неформальных запросов по сравнению с 2,5 Pro. В отличие от этого, 2.5 Pro остается лучше подходящим для пользователей, которые расставляют приоритеты скорость и отзывчивостьособенно для более легких, общих задач.

Эта дифференциация позволяет пользователям выбирать на основе их приоритетов: 2.5 Pro для скорости и плавностиили Глубокий думайте о строгости и размышленииПолем

Не модель выигрышной золотой медали, просто бронза

В июле Google DeepMind попала в заголовки газет, когда более продвинутая версия модели Gemini Deep Think достигла официального статуса золота в 2025 году-самого престижного конкурса математики в мире для учащихся старших классов.

Система Решены пять из шести сложных проблем и стали первым ИИ, получившим результат на уровне золота от IMO.

Демис Хассабис, генеральный директор Google DeepMind, объявил о достижении в X, заявив, что модель решила проблемы с сквозными на естественном языке-без необходимости перевода в формальный синтаксис программирования.

Плата IMO подтвердила, что модель набрала 35 из возможных 42 очков, намного выше золотого порога. Gemini 2,5 Deep Think решения были Описано президентом конкуренции Грегором Долинаром как ясно, точно и во многих случаях, Легче следовать, чем у людей -конкурентов.

Тем не менее, Gemini 2.5 Deep Think, выпущенный для пользователей, — это не та же модель конкуренции, скорее, более низкая, но, по -видимому, быстрее.

Как получить доступ к глубокому, думайте сейчас

Gemini 2,5 Deep Think — это Доступно исключительно в мобильном приложении Google Gemini для iOS и Android в настоящее время для пользователей на Google Ai Ultra Planчасть линейки подписки Google One, с ценой следующим образом.

Рекламное предложение: $ 124,99 в месяц в течение 3 месяцев, затем он поднимается до…
Стандартная ставка: $ 249,99/месяц
Включены функции: 30 ТБ хранилища, доступ к приложению Gemini с глубоким Think и Veo 3, а также такие инструменты, как Flow, Web и 12 500 ежемесячных кредитов AI

Подписчики могут активировать Deep Think в приложении Gemini, выбрав модель 2.5 Pro и переключая опцию «глубокие мышления».

Он поддерживает фиксированное количество подсказок в день и интегрируется с такими возможностями, как выполнение кода и поиск Google. Модель также генерирует более длинные и более подробные выходы по сравнению со стандартными версиями.

План Google AI Pro с более низким уровнем по цене 19,99 долл. США в месяц (с бесплатным испытанием), не включает доступ к глубокому мышлению, а также бесплатно Служба ИИ Близнецов.

Почему это имеет значение для технических лиц, принимающих предприятие

Gemini 2.5 Deep Think представляет собой практическое применение основного этапа исследования.

Это Позволяет предприятиям и организациям использовать математическую олимпиадную модель, завоевавшую медали, и присоединиться к их сотрудникам, хотя сейчас только через отдельную учетную запись пользователя сейчас.

Для исследователей, получающих полную модель IMO-Grade, она дает представление о будущем совместного искусственного интеллекта по математике. Для подписчиков Ultra Deep Think обеспечивает мощный шаг к более способной и контекстной помощи ИИ, который сейчас работает на ладони.

Источник

ИИ в искусстве

Фестиваль «Одна шестая» объявляет набор в сценарную и актерскую лаборатории

admin 02.08.2025

admin

Актерская и сценарная лаборатории состоятся в рамках IV Международного кинофестиваля дебютных фильмов Евразийского континента «Одна шестая», который в этом году пройдет с 25 по 30 сентября 2025 года в Екатеринбурге при поддержке Министерства культуры РФ и Министерства культуры Свердловской области. Напомним, главной темой деловой программы фестиваля в 2025-м станет ИИ в кинематографе.

Заявки на участие в лабораториях можно подать до 29 августа на официальном сайте фестиваля.

К участию в Сценарную лабораторию приглашаются начинающие русскоговорящие драматурги в возрасте от 18 лет из городов России и стран Евразии, в фильмографии которых не более двух реализованных киноработ. Заявка должна включать в себя: анкету участника, синопсис и сценарий короткометражного фильма, мотивационное письмо. Всего отбор пройдут 6 человек, которые смогут доработать свой сценарий с куратором.

«Сейчас в современном кинематографе — жанровый недостаток. Мало хорроров и боевиков. Но переизбыток историй с черными юмором, стимпанков и фэнтези-историй. Но это не значит, что всем нужно броситься и делать хорроры с боевиками. В нашей лаборатории авторы могут затрагивать в своих историях любые темы. И выбирать не типичные истории, которые интересны публике, а придумывать истории, которые трогают лично их», —советует потенциальным участникам куратор Сценарной лаборатории Андрей Золотарев («Слово пацана. Кровь на асфальте», «Сто лет тому вперед», «Повелитель ветра», «Триггер», «Василий», «Спутник», «Вторжение», сериал «13 Клиническая» и другие).

Кандидаты в Актерскую лабораторию — это профессиональные актеры театра и кино в возрасте от 18 лет из городов России и стран Евразии, в фильмографии которых не более трех кинопроектов. Заявка должна включать в себя: анкету участника, видеовизитку и мотивационное письмо. Эксперты отберут 12 человек, которые пройдут актерское обучение в рамках лаборатории, запишут видеовизитки, станут участниками фотосессии, а также смогут презентовать себя кастинг-директорам, продюсерам и режиссерам, присутствующим на фестивале.

«Актерская лаборатория — это пространство, где артист делает первый профессиональный шаг в кино. Мы работаем с камерой, кастингом, сценарием и вниманием зрителя. Здесь не репетируют — здесь действуют, как на съемочной площадке. Наша задача не научить «играть правильно», а помочь понять, кем ты можешь стать на экране,—рассказал актер и куратор Актерской лаборатории Егор Корешков (“Горько!”, “Психологини”, “Метод”, “257 причин, чтобы жить”, “Химера” и др.). — Участники пройдут весь путь, от видеовизитки до взаимодействия с режиссерами, сценаристами и кастинг-директорами. Это прямой вход в индустрию с возможностью заявить о себе уже сейчас. И мы ищем не идеальных, а ищущих. Тех, кто готов расти, рисковать и работать всерьез».

Начинающие авторы и актеры пройдут многодневный интенсив, где у них будет возможность изучить профессию у лучших экспертов в киноиндустрии, а также — получить профессиональное содействие. Работа в творческих лабораториях будет включать в себя авторские мастер-классы, лекции, дискуссии, обучающие программы, знакомства с кастинг-директорами и уже известными артистами, участие во всех мероприятиях фестиваля «Одна шестая» и встречи со звездами индустрии кино.

Шорт-лист участников Сценарной и Актерской лабораторий будет опубликован до 10 сентября 2025 года в телеграм-канале фестиваля и в официальной группе социальной сети ВК. Организаторы фестиваля «Одна шестая» компенсируют проезд в Екатеринбург и проживание в городе авторам 3 лучших сценарных заявок и 3 актерам. С победителем лаборатории может быть заключен контракт на сотрудничество со Свердловской киностудией для дальнейшей работы над будущими проектами.

Фото: Freepik (шапка); пресс-служба фестиваля «Одна шестая»

Источник

Новости

Глубокий Cogito становится большим, выпуская 4 новых модели гибридных рассуждений с открытым исходным кодом с самосовершенствованием «интуиции»

admin 01.08.2025

admin

Deep Cogito, менее известный стартап исследований искусственного интеллекта, основанный в Сан-Франциско, основанный бывшими гуглерами, выпустил четыре новых крупных языковых моделей открытых языков (LLMS), которые пытаются сделать что-то, что мало кто делает: научиться рассуждать более эффективно со временем-и почувствовать себя лучше.

Модели, выпущенные в рамках семейства V2 Cogito, варьируются от 70 миллиардов до 671 миллиарда параметров и доступны для разработчиков ИИ и предприятий для использования в рамках ограниченных и полностью открытых условий лицензирования. Они включают в себя:

Cogito v2-70b (плотный)
Cogito v2-109b (смеси экспертов)
Cogito v2-405b (плотный)
Cogito v2-671b (Moe)

Каждый из моделей Moe и MOE подходит для разных потребностей. Плотные варианты 70b и 405b модели активируют все параметры на каждом прямом проходе, что делает их более предсказуемыми и проще для развертывания в широком диапазоне оборудования.

Они идеально подходят для применений с низкой задержкой, тонкой настройки и среды с ограниченной способностью графического процессора. Модели MOE, такие как версии 109B и 671B, используют редкий механизм маршрутизации для активации только нескольких специализированных «экспертных» подсети за раз, что позволяет иметь гораздо большие общие размеры модели без пропорционального увеличения затрат на вычисление.

Это делает их хорошо подходящими для высокопроизводительных задач вывода, исследования сложных рассуждений или точность на уровне пограничного уровня при более низких затратах на выполнение. В Cogito V2 модель MoE 671B служит флагманом, используя свой масштаб и эффективность маршрутизации, чтобы соответствовать или превышать лидирующие открытые модели на контрольных показателях — при использовании значительно более коротких цепочек рассуждений.

Модели теперь доступны для обнимающего лица для загрузки и использования по предприятиям и в USLOTH для локального использования, или для тех, кто не может размещать модель выводов на своем собственном оборудовании, посредством интерфейсов прикладного программирования (API) из Ai, Baseten и Runpod.

Существует также квантовая версия «8-битной плавающей запятой (FP8)» модели 671B, которая уменьшает размер чисел, используемых для представления параметров модели с 16-битных до 8-битных, помогая пользователям работать более быстрее, более дешевле и на более доступном оборудовании-иногда с пренебрежимым ударом (от 95 до 99%). Тем не менее, это может немного снизить точность модели, особенно для задач, требующих мелкозернистой точности (некоторые проблемы по математике или рассуждениям).

Все четыре модели Cogito V2 разработаны как гибридные системы рассуждений: они могут немедленно ответить на запрос или, когда это необходимо, отражать внутренне перед ответом.

Важно отметить, что это отражение — это не просто поведение времени выполнения — оно выпекается в самом процессе обучения.

Эти модели обучаются усвоить свои собственные рассуждения. Это означает, что те самые пути, которые они проходят, чтобы получить ответы — так сказать, умственные шаги — обратно в веса моделей.

Со временем они узнают, какие линии мышления на самом деле имеют значение, а какие нет.

Как отмечает в сообщении в блоге Deep Cogito, исследователи «отказались от модели от« извилистого », чтобы иметь возможность прийти к ответу, и вместо этого разработать более сильную интуицию для правильной траектории поиска для процесса рассуждения».

Результат, как утверждает Deep Cogito,-это быстрее, более эффективные рассуждения и общее улучшение производительности, даже в так называемом «стандартном» режиме.

Самосовершенствование ИИ

В то время как многие в сообществе ИИ только что сталкиваются с компанией, Deep Cogito тихо строится более года.

Он появился из Стелс в апреле 2025 года с серией моделей с открытым исходным кодом, обученными на ламе Meta 3.2. Эти ранние релизы показали многообещающие результаты. Это произошло после того, как в ноябре 2024 года он был закрыт в 13 миллионов долларов, который был закрыт в ноябре 2024 года и возглавлял Tenchmark, а Эрик Вишрия из Benchmark присоединился к правлению компании.

Как VentureBeat Ранее сообщалось, самые маленькие модели Cogito V1 (3B и 8B) превзошли аналоги Llama 3 по нескольким критериям — иногда по широким краям.

Генеральный директор и соучредитель Deep Cogito Дришан Арора-ранее ведущий инженер LLM в Google-описал долгосрочную цель компании как строительные модели, которые могут рассуждать и улучшаться с каждой итерацией, во многом похожим на то, как альфаго уточнил свою стратегию с помощью самостоятельной работы.

Основной метод глубокого Cogito, итерационная дистилляция и усиление (IDA) заменяют рукописные подсказки или статические учителя на собственные развивающиеся идеи модели.

Что такое «машинная интуиция»?

С Cogito v2 команда взяла эту петлю в гораздо большем масштабе. Центральная идея проста: рассуждение не должно быть просто инструментом времени вывода; Это должно быть частью основного интеллекта модели.

Таким образом, компания внедрила систему, в которой модель запускает цепочки рассуждений во время обучения, а затем обучается своим промежуточным мыслям.

Этот процесс дает конкретные улучшения, согласно внутренним критериям. Флагманская модель 671B MOE превосходит DeepSeek R1 в рассуждениях, соответствуя или победив свою последнюю модель 0528, используя 60% более короткие цепочки рассуждений.

На MMLU, GSM8K и MGSM, производительность Cogito 671b MOE была примерно на одном уровне с лучшими открытыми моделями, такими как QWEN1.5-72B и DeepSeek V3, и приблизился к уровню производительности закрытых моделей, таких как Claude 4 Opus и O3.

Конкретно:

Cogito 671b MOE (режим рассуждения) соответствовал DeepSeek R1 0528 через многоязычные задачи QA и общих знаний и превзошли его по стратегии и логическому выводу.
В режиме без замены он превысил DeepSeek V3 0324, предполагая, что дистиллированная интуиция несла реальное вес даже без расширенного пути рассуждений.
Способность модели завершать рассуждения в меньшем количестве шагов также имела последующие эффекты: более низкие затраты на вывод и более быстрое время отклика на сложные подсказки.

Арора объясняет это как разницу между поиском пути по сравнению с уже знанием примерно, где находится пункт назначения.

«Поскольку модели Cogito разрабатывают лучшую интуицию траектории, которую нужно пройти во время поиска во время вывода, у них на 60% более короткие цепочки рассуждений, чем DeepSeek R1», — написал он в ветке на X.

На каких задачах новые модели Deep Cogito превосходят при использовании интуиции машины?

В некоторых из наиболее убедительных примеров из внутреннего тестирования Cogito V2 фигурируется, как именно это проявляется.

В одной математической подсказке пользователь спрашивает, может ли поезд, пройдя со скоростью 80 миль в час, достигнет города в 240 милях менее чем за 2,5 часа.

В то время как многие модели имитируют пошаговый расчет и иногда допускают ошибки преобразования единиц, Cogito 671b отражается внутри, определяет, что 240 ÷ 80 = 3 часа и правильно приходит к выводу, что поезд не может Прибытие вовремя. Это происходит только с коротким следом внутренних рассуждений-менее 100 токенов-по сравнению с 200 с лишним, используемым DeepSeek R1 для достижения того же ответа.

В другом примере, связанном с юридическими рассуждениями, пользователь спрашивает, будет ли конкретное решение Верховного суда США применяться к гипотетическому делу, касающемуся поиска и захвата. Режим рассуждения Cogito подчеркивает двухэтапную логику: Dirst определяет, соответствует ли гипотетический прецедент, а затем объясняет, почему он делает или нет. Модель достигает нюансированного ответа с явным оправданием — своего рода интерпретирующим рассуждением, с которым все еще борются многие LLM.

Другие задачи показывают улучшения в обращении с двусмысленностью. На классическом многообогативном вопросе: «Если Алиса-мать Боба, а Боб отец Чарли, что такое Алиса Чарли?» — Модели часто запутываются в местоимениях. Модели Cogito v2 правильно идентифицируют Алису как бабушку Чарли, даже в слегка переосмысленных вариантах, где другие открытые модели колеблются.

Эффективность в масштабе

Несмотря на огромный размер новых моделей, Deep Cogito утверждает, что обучил все восемь своих моделей Cogito, включая небольшие контрольно -пропускные пункты V1, в общей сложности менее 3,5 млн. Долл. США, по сравнению с сообщенными 100 миллионами долларов плюс для некоторых ведущих моделей OpenAI.

Это включает в себя генерацию данных, синтетическое усиление, инфраструктуру и более 1000 тренировочных экспериментов. По сравнению с девять цифровыми бюджетами других пограничных моделей, это часть типичных расходов.

ARORA приписывает эту бережливость основной тезисе компании: более умным моделям нужны лучшие априор, а не больше токенов.

Учив модель пропустить избыточные или вводящие в заблуждение пути рассуждения, Cogito V2 обеспечивает более высокую производительность без времени вывода.

Это значимый компромисс для пользователей, работающих на моделях на инфраструктуре API или устройствах, где задержка и стоимость имеют значение.

Что дальше для Deep Cogito и V2?

Выпуск Cogito V2 — это не конечный продукт, а итеративный шаг. Арора описывает дорожную карту компании как «скалолазание на холме» — бегущие модели, учится на их рассуждениях, перегоняет их и повторяя петлю. Со временем каждая модель становится ступенькой для следующей.

Каждая модель Deep Cogito выпустила открытый исходный код, и компания говорит, что это останется верным для будущих итераций.

Его работа уже привлекла внимание и поддержку со стороны таких спонсоров, как Эрик Вишрия и Адитья Агарвал из South Park Commons.

Партнеры по инфраструктуре включают в себя обнимающееся лицо, AI, Runpod, Baseten, Meta’s Llama Team и Unsloth.

Для разработчиков, исследователей и команд предприятия модели доступны сейчас. Разработчики могут запускать их локально, сравнить режимы или тонкую настройку для конкретных вариантов использования.

И для более широкого сообщества AI с открытым исходным кодом Cogito V2 предлагает больше, чем просто новый базовый победитель-он предлагает другой способ создания интеллекта. Не думая усерднее, а научившись думать лучше.

Источник