Новости искусственного интеллекта и технологий
  • Новости
  • Обзор сервисов
  • ИИ в искусстве
  • ИИ в бизнесе
  • ИИ в науке
  • ИИ в жизни
Категория:

Новости

Новости

Meta объявляет о своем руководителе Superintelligence Labs: бывший соавтор Openai GPT-4 Shengjia Zhao

admin 27.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Мета назначила Shengjia Zhaoбывший исследователь Openai и со -создатель GPT -4, в качестве главного ученых его недавно созданного Meta Superintelligence Labs (MSL)Полем

Объявление было сделано в пятницу Марком Цукербергом по темам, отметив, что Чжао возглавит научную повестку дня лаборатории вместе с ним и Александром Вангом, бывшим генеральным директором масштабного искусственного интеллекта, который недавно вывел на борт в качестве главного сотрудника ИИ.

«Я очень взволнован, чтобы взять на себя роль главного ученых для лабораторий Meta Super-Entelligence. С нетерпением жду создания ASI (искусственная суперинтеллигентность) и выравнивать его с тем, чтобы дать людям удивительную команду здесь. Давайте построим!» Чжао написал в своем собственном посте.

«Искусственная суперинтеллигенность» — это туманный термин, используемый в индустрии ИИ для описания систем более мощных и способных, чем любой сегодня, помимо даже самых умных людей, что затрудняет их контроль.

Сильный коммерческий ИИ

Чжао, который ранее работал в Openai, сыграл ключевую роль в разработке основополагающих моделей, таких как GPT-4 и GPT-4O, в соответствии с системными картами ARXIV и исследовательскими работами, в которых его соавтор перечитывает его в качестве соавтора. Он также известен своей академической работой над генеративными моделями и справедливыми представлениями, с широко цитируемыми статьями в таких местах, как Neurips, ICML и ICLR.

Чжао присоединяется к META среди высоких ставок, нанимающих блиц по всей индустрии искусственного интеллекта. За последние несколько месяцев Meta брала с браконьерствами из OpenAI, Apple, Google и Anproment в рамках многомиллиардной ставки на суперинтеллигентность, как сообщает CNN.

Meta недавно инвестировала 14,3 млрд. Долл. США в масштаб, приобретая 49% акций и привлекая Ван, чтобы возглавить усилия по надзору. Бывший генеральный директор GitHub Нат Фридман также присоединился к команде.

Компания, как сообщается, предложила компенсационные пакеты столько же, сколько От 100 миллионов долларов до 300 миллионов долларов за четыре года Заманить лучшие таланты ИИ, согласно нескольким отчетам. Один из претензий соперника -основателя AI Startup утверждал, что Meta предложила 1,25 миллиарда долларов за четыре года-примерно 312 миллионов долларов в год— к одному кандидату, который отказался.

Другие инсайдеры говорят, что самые старшие ученые из ИИ Meta могут получить 10 миллионов долларов в годв то время как первый год для некоторых новых сотрудников, по сообщениям, достигнут 100 миллионов долларовПолем

Стремления лидерства границы ИИ

Цукерберг не скрывал своих амбиций сделать Meta лидером в следующей границе ИИ, неоднократно заявляя, что компания планирует «инвестировать сотни миллиардов долларов в расчет в строительство суперинтеллигентности», используя свой собственный капитал.

Он сказал, что развертывание Llama 4 подчеркнуло важность элитных талантов: «У вас могут быть сотни тысяч графических процессоров, но если у вас нет правильной команды, разрабатывающей модель, это не имеет значения».

Фундаментальная исследовательская группа Meta (FAIR), все еще возглавляемая известным ученом Янном Лекуном, останется отдельной от новой лаборатории.

Создание лаборатории Superintelligence Meta сигнализирует о более ориентированной на продукту и миссии руки Meta по AI, посвященным строительству и согласованию ASI с человеческими интересами.

Компенсировать смешанный прием ламы 4

Тем не менее, толчок Meta в суперинтеллигентность появился на ухабистых развертывании своих последних моделей Foundation с открытым исходным кодом.

Компания выпустила свою модельную семью Llama 4 в апреле 2025 года, позиционируя его как прыжок в мультимодальные рассуждения и давно контекстный понимание. Но релиз изо всех сил пытался набрать обороты среди роста могущественных китайских соперников с открытым исходным кодом, таких как Deepseek и Qwen.

Мета столкнулась с общественной критикой со стороны исследователей и разработчиков, которые процитировали плохие результаты реальной деятельности, путаницу в отношении результатов контроля и непоследовательное качество в развертывании.

Некоторые обвинили компанию в «эталонном мастерстве» и использовании неиспользованных оптимизированных версий Llama 4 для повышения общественного восприятия — требование Meta отрицала.

Внутренние источники обвинили быстрые сроки развертывания и ошибки в проблемах, но этот эпизод вызвал тень из -за генеративного доверия ИИ от Meta, так же, как он предпринимает свои самые амбициозные усилия.

Джим Фан, бывший коллега из Стэнфорда Чжао, а теперь директор Nvidia по робототехнике и выдающемуся ученым, предложил его одобрение X: «Шенгжия — один из самых ярких, скромных и самых страстных ученых, которых я знаю. Очень оптимистично на MSL!»

Этот шаг подчеркивает стратегию Meta, чтобы агрессивно тратить в настоящее время на обеспечение доминирующей позиции в том, что она рассматривает как следующую основополагающую технологическую платформу, которая может затмить мобильный интернет. Как видит Цукерберг, ASI — это не самолет — это следующая граница, и Meta намеревается возглавить.



Источник
Новости

Новая архитектура искусственного интеллекту

admin 27.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Сингапурский AI Startup Startup Intelligence разработал новую архитектуру искусственного интеллекта, которая может соответствовать, и в некоторых случаях значительно превосходит большие языковые модели (LLMS) по сложным рассуждающим задачам, при этом значительно меньше и более эффективно.

Архитектура, Известная как модель иерархического рассуждения (HRM), вдохновлена тем, как человеческий мозг использует различные Системы для медленного, преднамеренного планирования и быстрых интуитивно понятных вычислений. Модель достигает впечатляющих результатов с частью данных и памяти, требуемой сегодняшним LLMS. Эта эффективность может иметь важные последствия для реальных приложений для искусственного интеллекта предприятия, где данные ограничены, а вычислительные ресурсы ограничены.

Пределы рассуждений цепной мыслей

Столкнувшись со сложной проблемой, текущие LLM в значительной степени полагаются на подсказку (COT) в цепочке (COT), разбивая проблемы на промежуточные текстовые шаги, по существу заставляя модель «мыслить вслух», поскольку она работает на решение.

В то время как COT улучшила способности рассуждений LLMS, она имеет фундаментальные ограничения. В своей статье исследователи из Sapient Intelligence утверждают, что «кроватка для рассуждений-это костыль, а не удовлетворительное решение. Она полагается на хрупкие, определенные человеческие разложения, где один ошибка или неправильное застройки шагов могут полностью смягчить процесс рассуждения».

Эта зависимость от создания явного языка определяет рассуждения модели до уровня токена, часто требуя огромных объемов обучающих данных и получения длинных, медленных ответов. Этот подход также упускает из виду тот тип «скрытых рассуждений», который происходит внутри страны, не будучи явно сформулированным на языке.

Как отмечают исследователи, «необходим более эффективный подход, чтобы минимизировать эти требования к данным».

Иерархический подход, вдохновленный мозгом

Чтобы выйти за рамки COT, исследователи исследовали «скрытые рассуждения», где вместо того, чтобы генерировать «мыслительные токены», модельные причины во внутреннем, абстрактном представлении проблемы. Это более соответствует тому, как думают люди; Как говорится в статье, «мозг поддерживает длинные, когерентные цепочки рассуждений с замечательной эффективностью в скрытом пространстве, без постоянного перевода обратно на язык».

Тем не менее, достижение этого уровня глубоких внутренних рассуждений в ИИ является сложной задачей. Простое складывание большего количества слоев в модели глубокого обучения часто приводит к проблеме «исчезновения градиента», когда сигналы обучения ослабевают по слоям, что делает обучение неэффективным. Альтернативная, повторяющаяся архитектура, которая зацикливается на вычислениях, может страдать от «ранней конвергенции», где модель слишком быстро оседает на решении, не полностью исследуя проблему.

иерархическая модель рассуждения
Модель иерархического рассуждения (HRM) вдохновлена структурой источника мозга: arxiv

В поисках лучшего подхода команда Speepient обратилась к нейробиологии для решения. «Человеческий мозг обеспечивает убедительный план для достижения эффективной глубины вычислительной техники, которой не хватает современных искусственных моделей», — пишут исследователи. «Он организует вычисления иерархически в области кортикальных областей, работающих в разное время, что позволяет глубоко, многоэтапно рассуждения».

Вдохновленные этим, они разработали HRM с двумя связанными, рецидивирующими модулями: модуль высокого уровня (H) для медленного, абстрактного планирования и модуля низкого уровня (L) для быстрых, подробных вычислений. Эта структура позволяет процесс, который команда называет «иерархической конвергенцией». Интуитивно, быстрый L-модуль решает часть проблемы, выполняя несколько шагов, пока он не достигнет стабильного локального решения. В этот момент медленный H-модуль получает этот результат, обновляет свою общую стратегию и дает L-модуле новую утонченную подпрограмму для работы. Это эффективно сбрасывает L-модуль, предотвращая его застрять (ранняя сходимость) и позволяя всей системе выполнять длинную последовательность шагов рассуждений с архитектурой Lean Model, которая не страдает от исчезающих градиентов.

HRM (слева) плавно сходится на растворе между расчетными циклами и избегает ранней конвергенции (центра, RNN) и градиентов исчезающих (справа, классические глубокие нейронные сети) Источник: arxiv

Согласно статье, «этот процесс позволяет HRM выполнять последовательность различных, стабильных, вложенных вычислений, где H-модуль направляет общую стратегию решения проблем, а L-модуль выполняет интенсивный поиск или уточнение, необходимые для каждого шага». Эта вложенная конструкция позволяет модели глубоко рассуждать в своем скрытом пространстве без необходимости длинных подсказок или огромных объемов данных.

Естественный вопрос заключается в том, возникает ли это «скрытое рассуждение» за счет интерпретации. Гуань Ван, основатель и генеральный директор Sapient Intelligence, отталкивает эту идею, объясняя, что внутренние процессы модели могут быть декодированы и визуализированы, аналогично тому, как COT предоставляет окно в мышление модели. Он также указывает, что сама кроватка может вводить в заблуждение. «Cot не действительно отражает внутреннее рассуждение модели», — сказал Ван Ван, ссылаясь на исследования, показывающие, что модели могут иногда давать правильные ответы с неверными шагами рассуждения, и наоборот. «Это остается по сути черный ящик».

Пример того, как HRM причиняет причину задачи лабиринта в разных циклах вычислений Источник: arxiv

HRM в действии

Чтобы проверить свою модель, исследователи противопоставляли HRM против критериев, которые требуют обширного поиска и обратного перерыва, таких как корпус абстракции и рассуждения (ARC-Agi), чрезвычайно сложные головоломки судоку и сложные задачи по решению лабиринта.

Результаты показывают, что HRM учится решать проблемы, которые неразрешимы даже для даже продвинутых LLMS. Например, на критериях «Судоку-Экстрам» и «Лабиринт-Хард», современные модели Cot потерпели неудачу полностью, набрав 0% точность. Напротив, HRM достиг почти идеальной точности после обучения всего 1000 примеров для каждой задачи.

На тесте Arc-Agi, проверке абстрактных рассуждений и обобщения, 27-метровый HRM набрал 40,3%. Это превосходит ведущие модели на основе COT, такие как гораздо больший O3-Mini-High (34,5%) и Claude 3,7 Сонет (21,2%). Эта производительность, достигнутая без большого до тренировок и с очень ограниченным данным, подчеркивает мощность и эффективность его архитектуры.

HRM превосходит большие модели по сложным рассуждениям. Источник: arxiv

В то время как решение головоломок демонстрирует силу модели, реальные последствия заключаются в другом классе проблем. По словам Ванга, разработчики должны продолжать использовать LLMS для языковых или творческих задач, но для «сложных или детерминированных задач», HRM-подобная архитектура предлагает превосходную производительность с меньшими галлюцинациями. Он указывает на «последовательные проблемы, требующие сложного принятия решений или долгосрочного планирования», особенно в чувствительных к задержке областям, таким как воплощенный ИИ и робототехника, или домены рассеяния данных, такие как научное исследование.

В этих сценариях HRM не просто решает проблемы; Он учится решать их лучше. «В наших экспериментах в Судоку на мастер -уровне… HRM нуждается в постепенно меньше шагов по мере достижения в обучении — акин для новичка, ставшего экспертом», — объяснил Ван.

Для предприятия именно здесь эффективность архитектуры переводится непосредственно к итоги. Вместо сериала, токеновой генерации кроватки, параллельная обработка HRM позволяет получить то, что, по оценкам Ван, может быть «100X ускорением во время выполнения задачи». Это означает более низкую задержку вывода и способность запускать мощные рассуждения на краевых устройствах.

Экономия стоимости также существенна. «Специализированные двигатели рассуждений, такие как HRM, предлагают более многообещающую альтернативу для конкретных сложных аргументированных задач по сравнению с крупными, дорогостоящими и задержками, интенсивными моделями API»,-сказал Ван. Чтобы представить эффективность в перспективе, он отметил, что обучение модели для Sudoku профессионального уровня занимает примерно два часа GPU, а для сложного эталона Arc-Agi-от 50 до 200 часов GPU-часть ресурсов, необходимых для массивных моделей фундамента. Это открывает путь к решению специализированных бизнес -задач, от оптимизации логистики до сложной диагностики системы, где как данные, так и бюджет являются конечными.

Заглядывая в будущее, разумный интеллект уже работает над развитием HRM из специализированного резокционера в более общий модуль рассуждений. «Мы активно разрабатываем вдохновленные мозгом модели, основанные на HRM»,-сказал Ван, подчеркивая многообещающие начальные результаты в области здравоохранения, прогнозирования климата и робототехники. Он дразнил, что эти модели следующего поколения будут значительно отличаться от современных текстовых систем, особенно благодаря включению самокорректирующих возможностей.

Работа предполагает, что для класса проблем, которые оторвали сегодняшние гиганты ИИ, путь вперед может быть не более крупными моделями, но более умными, более структурированными архитектурами, вдохновленными окончательным двигателем рассуждений: человеческим мозгом.



Источник
Новости

Это лето QWEN: новый открытый исходный код QWEN3-235B-A22B-CHINDE-2507 TOPS OPEN, модели рассуждений Близнецов на ключевых тестах

admin 26.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Если бы индустрия ИИ была эквивалентно звукозаписывающей индустрии «Song of the Summer» — хит, который завоевывается в теплые месяцы здесь, в северном полушарии и слышит повсюду — четкий лауреат для этого титула отправится в команду Alibaba QWEN.

За прошедшую неделю в отделе исследований AI Frontier Model AI китайской электронной коммерции выпустили не одну, не две, не три, а четыре (!!) новые модели с открытым исходным исходным искусством, которые предлагают контрольные показатели, которые представляют даже некоторые ведущие проприетарные варианты.

Прошлой ночью команда QWEN завершила это выпуском QWEN3-235B-A22B-CHINGE-2507Это обновляется рассуждение о большой языковой модели (LLM), которая занимает больше времени, чем неэразирующая или «инструктирование» LLM, участие в «цепях размышлений» или саморефлексии и самостоятельной проверке, которые, как мы надеемся, приводят к более правильным и всеобъемлющим ответам на более сложные задачи.

Действительно, новый QWEN3-CINDICE-2507, так как мы будем называть его коротко, теперь ведет или тщательно следит за максимальными моделями в нескольких основных тестах.

Как писал «ИИ влиятельный человек» и «Новости» Эндрю Керран на «X:« Самая сильная модель рассуждения Qwen, и она находится на границе ».

В AIME25 Конфликт-спроектирован для оценки способности решать проблемы в математических и логических контекстах- QWEN3-2507 лидирует все зарегистрированные модели с результатом 92.3узко превзойдя обоих O4-Mini (Openai (92.7и Gemini-2,5 Pro (88.0)

Модель также показывает командную производительность на LiveCodebench V6В Оценка 74,1, опередив Google Gemini-2,5 Pro (72,5), Openai O4-Mini (71,8)и значительно превосходя свою более раннюю версию, которая опубликовала 55,7Полем

В GPQAэталон для вопросов с несколькими вариантами выбора, модель достигает 81.1почти соответствует Deepseek-R1-0528 (81.0) и ведущий гемини-2,5 Pro 86.4Полем

На Arena-Hard V2который оценивает выравнивание и субъективные предпочтения посредством показателей побед, QWEN3-CINDING-2507 79,7поместив его впереди всех конкурентов.

Результаты показывают, что эта модель не только превосходит своего предшественника в каждой основной категории, но и устанавливает новый стандарт для того, что могут достичь модели с открытым исходным кодом.

Переход от «гибридных рассуждений»

Выпуск QWEN3-CHINGE-2507 отражает более широкий стратегический сдвиг команды Alibaba QWEN: отойти от моделей гибридных рассуждений, которые требовали, чтобы пользователи вручную переключались между режимами «мышления» и «не обдумыванием».

Вместо этого команда теперь обучает отдельные модели для рассуждений и задач обучения. Это разделение позволяет оптимизировать каждую модель для ее предполагаемой цели, что приводит к улучшению согласованности, ясности и контрольной производительности. Новая модель QWEN3 полностью воплощает эту философию дизайна.

Наряду с ним, Qwen запустил QWEN3-CODER-480B-A35B-Instructмодель 480B-параметра, созданная для сложных рабочих процессов кодирования. Он поддерживает 1 миллион токеновых контекстов и превосходит GPT-4.1 и Gemini 2.5 Pro на проверке SWE-Bench.

Также объявлено QWEN3-MTмногоязычная модель перевода, обученная триллионам токенов на 92+ языках. Он поддерживает адаптацию домена, контроль терминологии и вывод всего от 0,50 долл. США за миллион токенов.

В начале недели команда выпустила QWEN3-235B-A22B-Instruct-2507не запрашивающая модель, которая превзошла Claude Opus 4 по нескольким критериям и представила легкий вариант FP8 для более эффективного вывода на ограниченном оборудовании.

Все модели лицензированы в Apache 2.0 и доступны благодаря обнимающему лицу, моделям и API QWEN.

Лицензирование: Apache 2.0 и его преимущество предприятия

QWEN3-235B-A22B-CHINKING-2507 выпускается под Apache 2.0 Лицензиякрайне разрешающая и коммерчески дружелюбная лицензия, которая позволяет предприятиям загружать, модифицировать, самостоятельно, настраивать и интегрировать модель в проприетарные системы без ограничений.

Это противоречит проприетарным моделям или открытым выпускам только для исследования, которые часто требуют доступа к API, навязывают ограничения использования или запрещают коммерческое развертывание. Для сознательных организаций и команд, стремящихся контролировать затраты, задержку и конфиденциальность данных, лицензирование Apache 2.0 обеспечивает полную гибкость и владение.

Доступность и цены

QWEN3-235B-A22B-CHINGE-2507 теперь доступен бесплатно для бесплатной загрузки на лице объятия и моделей.

Для тех предприятий, которые не хотят или не имеют ресурсов и возможностей размещать модельный вывод на своем собственном оборудовании или виртуальном частном облаке через API, VLLM и Sglang Alibaba Cloud.

  • Входная цена: 0,70 долл. США за миллион токенов
  • Выходная цена: 8,40 долл. США за миллион токенов
  • Бесплатный уровень: 1 миллион токенов, действительный в течение 180 дней

Интеграция и инструменты

Модель совместима с агентскими рамками через Qwen-Agentи поддерживает расширенное развертывание с помощью API-совместимых с OpenAI.

Его также можно запускать локально, используя фреймворки трансформатора или интегрированы в стеки Dev через node.js, инструменты CLI или структурированные интерфейсы.

Настройки выборки для лучшей производительности включают температура = 0,6В top_p = 0,95и максимальная длина выхода из 81 920 токенов для сложных задач.

Корпоративные приложения и будущие перспективы

Благодаря сильной контрольной производительности, долгосрочной перспективе и разрешительным лицензированием, QWEN3-Cilling-2507 особенно хорошо подходит для использования в системах ИИ предприятия, включающих мышление, планирование и поддержку принятия решений.

Более широкая экосистема QWEN3, включая модели кодирования, обучения и перевода, распространяется на технические команды и бизнес -подразделения, стремясь включить ИИ по вертикали, таким как инженерная инженерия, локализация, поддержка клиентов и исследования.

Решение команды QWEN выпустить специализированные модели для различных вариантов использования, подкрепленные технической прозрачностью и поддержкой сообщества, сигнализирует о преднамеренном сдвиге в сторону строительства Открытая, исполнительная и готовая к производству инфраструктура ИИПолем

Поскольку все больше предприятий ищут альтернативы, управляемым API, черными ящиками, серия QWEN от Alibaba все чаще позиционирует себя как жизнеспособную основу с открытым исходным кодом для интеллектуальных систем, предлагая как контроль, так и возможности в масштабе.



Источник
Новости

Фрид говорит, что 20 000 клиницистов используют свой медицинский транскрипцию «Писет», но конкуренция быстро растет

admin 25.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Даже генеративные критики ИИ и хулители должны признать, что технология отлично подходит для чего -то: транскрипция.

Если вы присоединились к собрании на Zoom, Microsoft Teams, Google Meet или другой платформе видеозвонков по вашему выбору в любой момент в прошлом году или около того, вы, вероятно, заметили увеличение числа номеч для ИИ, которые также присоединяются к конференции.

Действительно, все эти платформы не только имеют встроенные функции транскрипции ИИ, но, конечно, есть другие автономные услуги, такие как выдр-AI (используемые VentureBeat, а также набор приложений Google Workspace), а также такие модели, как новый GPT-4-транспирация Openai, и старые шепот с открытым садом, айола и многие другие с определенными нишами и роликами.

Одним из таких стартапов является Freed AI, базирующаяся в Сан-Франсиско, соучрединный в 2022 году бывшими инженерами Facebook Эрезом Друком и Андреем Банниковом, теперь его генеральным директором и техническим директором соответственно. Идея была проста: дайте врачам и медицинским работникам способ автоматической транскрибировать их разговоры с пациентами, захватить точную терминологию, специфичную для здоровья, а также извлекать понимание и планы действий из разговоров, когда врач не должен поднять палец.

Идея сработала хорошо, поскольку платформа медицинского писца недавно достигла новой вехи: 20 000 платящих клиницистов-пользователей, Druk поделился недавним разговором с Venturebeat, каждый из которых экономил 2-3 часа ежедневно в ручной транскрипции или задачах организации Note.

С почти 3 миллионами посещений пациентов в месяц, Freed быстро становится основополагающим инструментом для документации в малых и средних здравоохранениях.

В то время дивиденды помогли повысить степень эмоционального резонанса с клиентами, которые часто описывают продукт с точки зрения восстановленного баланса между работой и личной жизнью.

«Клиницисты проводят более 11 часов в неделю на документацию», — отметил Друк. «Мы построили освобождение, чтобы уменьшить это бремя, слушая визит и написав клиническую ноту».

Растущая конкуренция

Но успех Фрида привлек усиливающуюся конкуренцию. Только сегодня Doximity — публичная сетевая компания по обмену врачом — выпустила бесплатный писец AI AIT, доступный для всех подтвержденных врачей США, практикующих медсестер, помощников врача и студентов -медиков, как сообщают Axios и Stat News.

Этот шаг подчеркивает сдвиг в сторону коммодитизации на рынке Scribe AI, где ценообразование становится дифференцировкой.

«Мы хотим предоставить бесплатный доступ к инструментам, о которых просили, которые просили, — главный сотрудник Domimity по опыту врача Амит Фулл сказал Axios, — и они могут самостоятельно выяснить, не соответствуют ли стандартное предложение — или они платят за что -то еще — складываются».

Этот запуск следует за другими громкими раундами финансирования писца в десятках или сотнях миллионов. В то время как инвесторы представляют видения платформ масштаба EHR, эти амбиции по-прежнему зависят от того, чтобы доказать ценность в счетах, обзор диаграммы и соответствия-не только создание заметок.

Тем не менее, Друк и команда Freed считают, что у них есть преимущество.

Превратить выгорание в возможность

Фрид не родился из технического мозгового штурма, но из личной болевой точки. Друк приписывает эту идею борьбе своей жены как практикующего семейного врача, где постоянное бремя принятия нот стало ежедневным источником стресса.

«В течение семи лет каждый день я слышал дома,« у меня есть заметки » — больше, чем я слышал« Я люблю тебя »от моей жены», — сказал он. «Вот как обременительная документация».

Этот живой опыт превратился в преднамеренное видение продукта: удалить бремя документации от клиницистов и вернуть им контроль над своим временем и умственной энергией.

«Идея Фрида была: почему никто не строит что -то, чтобы помочь врачам?» Друк сказал. «Все делают с ними что -то, а не для них».

Больше, чем транскрипция: модульная система ИИ, созданная для медицины

Система Freed делает больше, чем записывает и транскрибирует разговоры. Основным продуктом является структурированный, специализированный механизм документации по искусственному искусству, который генерирует клинические заметки, адаптированные к предпочтениям каждого пользователя.

Друк объяснил, что архитектура Фрида опирается на очень модульный трубопровод. В то время как первоначальная транскрипция оснащена тонкой настройкой версии Whisper Open Apectai с открытым исходным кодом-оптимизированной специально для клинического словаря-это только отправная точка.

Платформы Компании по сотням целевых задач ИИ для извлечения структуры, отфильтровать небольшие разговоры, корректировать терминологию по медицинским стандартам и сопоставить специфические для пользователя шаблоны.

«Речь идет не только о точности транскрипции», — сказал Друк. «Речь идет о построении системного доверия клиницистов — которое со временем становится умнее и приспосабливается к своему рабочему процессу».

«Наш двигатель учится в клиницических редакциях», — добавил он. «Со временем Фрид становится вашим личным писцом, а не общим».

Более 20 внутренних клиницистов регулярно проверяют анонимные примечания для повышения производительности модели. И как клиницисты вносят изменения, система продолжает учиться.

Цены и доступность

Freed предлагает прямые цены:

  • 90 долларов в месяц для отдельных клиницистов
  • 84 долл. США в месяц на пользователя для команд из 2–9 клиницистов
  • Пользовательские цены на 10+ мест

Каждый план включает в себя 7-дневную бесплатную пробную версию, а компания предлагает 50% скидок для студентов, жителей и стажеров. Платформа Freed также соответствует стандартам HIPAA, Hitech и SOC 2. Аудиозаписи зашифрованы и удаляются по умолчанию, и клиницисты всегда сохраняют полный контроль над своими заметками.

Тихо строить бизнес Arr за 20 миллионов долларов

В то время как Freed недавно собрал 30 миллионов долларов в финансировании серии A во главе с Sequoia Capital, его финансовый импульс в основном поступил в основном с ее существующей клиентской базы.

В апреле 2025 года Druk публично поделился на X, который Freed превысил 20 миллионов долларов в годовом рецидивах.

Этот рост отражает не только сильную посадку на рынке продукта, но и четкую стратегию на рынке. Вместо того, чтобы Chase Enterprise Contracts с крупными больничными системами, Freed сосредоточился на небольших клиниках и сольных практикующих — сегмент, который часто упускают из виду поставщики медицинских технологий.

«Мы сосредоточены на длинном хвосте, поддерживая небольшие клиники — 40% клиницистов в частной практике — чтобы помочь поддерживать их», — сказал Друк. «У этих клиницистов нет многомиллионных ИТ-бюджетов, но они больше всего нуждаются в нашей помощи».

В настоящее время Freed используется в более чем 1000 небольших организаций здравоохранения, в основном в диапазоне 1–50 клиницистов.

Друк сказал, что он считает, что этот фокус является не просто стратегическим, но и выравниваемым миссией-помогает сохранить небольшие практики жизнеспособными на фоне консолидации отрасли.

Глядя в будущее: тесты и интеграция EHR

Друк признал общую проблему на все более многолюдном рынке транскрипции AI/AI: трудно отличить реальную производительность от хорошо маркетингового паритета.

Чтобы решить эту проблему, Freed разрабатывает внутреннюю систему сравнительного анализа для измерения качества и точности заметок в течение 30 различных критериев-с целью создания общеотраслевой основы для сравнения писцов ИИ.

«Там есть 100 писцов ИИ. Снаружи они выглядят одинаково», — признал Друк. «Мы хотим помочь рынку измерить, что на самом деле важно».

Параллельно, дорожная карта продукта включает интеграцию EHR EHR. Freed недавно запустил расширение Chrome для поддержки бесшовных трансфертов нот, и предстоящие выпуски будут включать в себя большую автоматизацию в отношении вводных заметок в общие системы EHR.

Обратная связь с врачами подчеркивает личное влияние

Помимо показателей использования и функций продукта, влияние Freed наиболее четко отражено в пользовательских историях. Клиницисты сообщают о возвращении ночей, выходных, а в некоторых случаях — всю карьеру.

Друк вспомнил звонок с одним врачом, который сказал ему, что она готовилась закрыть свою частную практику после 10 лет — пока она не попыталась освободить и не передумал.

Другой врач сказал: «Я практикую в течение 44 лет — почему вы не построили это 30 лет назад? Я могу снова насладиться своей практикой».

В опросе, проведенном с одним клиентом Enterprise, 100% клиницистов сообщили о улучшении баланса между работой и личной жизнью. Восемьдесят процентов заявили, что они счастливее на своей работе, и 80% полагали, что они обеспечивают лучшую помощь пациентам.

«Мы берем это облако, которое висит над головами клиницистов — стресс документации — и мы удаляем его», — сказал Друк. «Вот о чем Фрид».



Источник
Новости

План Белого дома сигнализирует о эпохе «Open-Weight First»-и предприятиям нужны новые ограждения

admin 25.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Президент США Дональд Трамп подписал план действий искусственного интеллекта, в котором обрисовывает путь для США, чтобы вести в гонке ИИ. Для предприятий, уже находящихся в результате развертывания систем ИИ, правила представляют собой четкое представление о том, как эта администрация намерена обработать ИИ в будущем и может сигнализировать о том, как поставщики будут приближаться к развитию ИИ.

Подобно указанному распоряжению ИИ, подписанном Джо Байденом в 2023 году, приказ Трампа в первую очередь касается государственных учреждений, направляя, как они могут заключать контракт с моделями ИИ и поставщиками приложений, поскольку это не является законодательным актом.

План искусственного интеллекта может непосредственно не повлиять на предприятия немедленно, но аналитики отметили, что в любое время, когда правительство занимает должность по ИИ, экосистема меняется.

«Этот план, вероятно, будет формировать экосистему, в которой мы все работаем-тот, который вознаграждает тех, кто может быстро двигаться, оставаться выровненными и доставлять реальные результаты»,-сказал Мэтт Вуд, сотрудник по коммерческим технологиям и инновациям в PWC, в электронном письме. «Для предприятий сигнал ясен: темпы принятия искусственного интеллекта ускоряются, а стоимость отставания увеличивается. Даже если плановые центры на федеральных агентствах, волновые эффекты-при закупках, инфраструктуре и нормах-достигнут гораздо дальше. Мы увидим новое правительство тесты, программы приобретения и финансирующие потоки, и входят в себя, и входят в Pills, что, и входит в Pill, в рамках. хорошо позиционировано ».

Он добавил, что план действий «не является планом для ИИ предприятия». Тем не менее, предприятия должны ожидать среды развития искусственного интеллекта, которая приоритет скорости, масштабам, экспериментам и меньшей зависимости от регулирующих приютов. Компании, работающие с правительством, также должны быть подготовлены к дополнительному изучению моделей и приложений, которые они используют, чтобы обеспечить согласование с ценностями правительства.

В плане действий описывается, как правительственные учреждения могут сотрудничать с компаниями искусственного интеллекта, определяют приоритеты рекомендуемых задач, чтобы инвестировать в инфраструктуру, поощрять развитие ИИ и установить руководящие принципы для экспорта и импорта инструментов ИИ.

Чарлин Бионди, помощник вице -президента и аналитик по рейтингам Moody’s Ratings, сказал, что план «подчеркивает роль ИИ как все более стратегического актива и основного драйвера экономической трансформации». Однако она отметила, что этот план не учитывает фрагментацию регулирования.

«Тем не менее, текущая регулирующая фрагментация в государствах США может создать неопределенность для разработчиков и предприятий. Наблюдение за правильным балансом между инновациями и безопасностью, а также между национальными амбициями и ясностью регулирования будет иметь решающее значение для обеспечения продолжения принятия предприятий и избежать непреднамеренных замедлений», — сказала она.

Что внутри плана действий

План действий ИИ разбит на три столпа:

  1. Ускорение инноваций ИИ
  2. Создание американской инфраструктуры ИИ
  3. Ведущий в области международной дипломатии и безопасности искусственного интеллекта.

Ключевой заголовок Плана действий ИИ сосредоточен на «обеспечении свободы слова и американских ценностей», что является важной точкой разговора для этой администрации. Он инструктирует Национальный институт стандартов и технологий (NIST) удалить ссылки на дезинформацию и разнообразие, справедливость и включение. Это не позволяет агентствам работать с моделями фундамента, которые имеют «нисходящие повестки дня».

Неясно, как правительство ожидает, что существующие модели и наборы данных будут последовать их примеру, или как будет выглядеть этот вид искусственного интеллекта. Предприятия особенно обеспокоены потенциально противоречивыми заявлениями, которые могут сделать AI Systems, о чем свидетельствуют недавний Grok Kerfuffle.

Он также приказывает NIST исследовать и публиковать результаты, чтобы гарантировать, что модели из Китая, такие как Deepseek, Qwen и Kimi, не совпадают с Коммунистической партией Китая.

Тем не менее, наиболее косвенные позиции включают в себя поддержку систем с открытым исходным кодом, создание новой экосистемы тестирования и оценки и оптимизации процесса создания центров обработки данных.

Благодаря плану Министерству энергетики и Национальному научному фонду предназначены для разработки «испытательных стендов ИИ для пилотирования систем ИИ в безопасных, реальных условиях», позволяя исследователям прототипа систем. Это также удаляет большую часть красной ленты, связанной с оценкой тестирования безопасности для моделей.

То, что воодушевило многих в отрасли, является явной поддержкой моделей ИИ с открытым исходным кодом и моделей с открытым весом.

«Мы должны гарантировать, что Америка имеет ведущие открытые модели, основанные на американских ценностях. Модели с открытым исходным кодом и открытым весом могут стать глобальными стандартами в некоторых областях бизнеса и академических исследований во всем мире. По этой причине они также имеют геостратегическую ценность. Хотя решение о том, как и как выпустить открытую или закрытую модель, в основном зависит от разработчика, федеральное правительство должно создавать экологически чистую среду для открытых моделей».

Понятно, что сторонники с открытым исходным кодом, такие как Clement Face’s Clement Delangue, высоко оценили это решение в социальных сетях, сказали: «Пришло время для американского сообщества AI просыпаться, отбросить« Открыть не безопасно »и вернуться к ее корням: открытые науки и AI с открытым исходным кодом, приводятся в пользу непревзойденного сообщества фронтальных лабораторий, крупных технологий, стартовых, университетов и незаправленных.

Пришло время американскому сообществу искусственного интеллекта проснуться, отбросить «Открытие не безопасно» и вернуться к своим корням: открытый и искусственный ИИ с открытым исходным кодом, основанный на непревзойденном сообществе пограничных лабораторий, больших технологий, стартапов, университетов и некоммерческих организаций.

Если мы этого не сделаем, мы будем вынуждены … https://t.co/nxnhdmhugh

— Клем? (@ClementDelangue) 23 июля 2025 года

Председатель BCG X North America Sesh Iyer заявил Venturebeat, что это даст предприятиям больше уверенности в принятии LLM с открытым исходным кодом, а также может поощрять больше поставщиков с закрытым исходным кодом «переосмыслить стратегии пропритентировки и потенциально рассмотреть вопрос о выпуске весов модели».

В плане упоминается, что облачные провайдеры должны расставить приоритеты в Министерстве обороны, что может ударить некоторые предприятия из уже переполненного списка ожидания.

Правительство возьмет на себя ваши компьютерные брушки 🙂 pic.twitter.com/ot76a6lsgk

— Лизан Аль Гайб (@scaling01) 23 июля 2025 года

Немного больше ясности по правилам

План действий искусственного интеллекта больше сродни исполнительному приказу и может направлять только государственные учреждения в соответствии с учетом исполнительной власти. Полное регулирование ИИ, которое проходит через несколько администраций, может быть достигнуто только через Конгресс.

Предприятия понимали, что изменение в администрировании может означать меньший акцент на правила ИИ и привязались к этому воздействию. Администрация Трампа отменила ЭО Байдена, остановив многие проекты, уже ведущие после его подписания.

С подписанием плана действий администрация Трампа, по крайней мере, излагает свои приоритеты и позицию в области развития ИИ, что поможет повысить доверие предприятия в технологии.

План действий в Белом доме дает это прямо на инфраструктуре, федеральном усыновлении и координации безопасности. Это отражает многие политики, направленные на антроп.

— антропический (@Anpropicai) 23 июля 2025 года

Как и это — шаги по улучшению искусственных средств. pic.twitter.com/2vfs9ytcgc

— Shakeel (@shakeelhashim) 23 июля 2025 года

Однако даже в отсутствие регулирования ЭО или Конгресса предприятия уже строили и расширяли экосистему ИИ. Хотя существует некоторая обеспокоенность по поводу отсутствия правил и неопределенности, которая с ним связана, она никогда не мешала предприятиям быть взволнованным технологией, которая обещает облегчить их работу. План, по крайней мере, облегчает рост.

«Это снижает некоторое внешнее трение, например, более быстрое разрешения, большие возможности центра обработки данных и потенциальное финансирование. Но реальное ускорение происходит внутри предприятия: навыки, управление и способность ответственно развертываться. Те, кто уже создал, что мышцы будут лучше всего подходить, чтобы использовать импульс, который генерирует план», — сказал Вуд PWC.



Источник
Новости

QWEN3-CODER-480B-A35B-Instruct запускается, и это может быть лучшей моделью кодирования.

admin 24.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Китайский гигант электронной коммерции Alibaba «Команда QWEN» сделала это снова.

Спустя всего несколько дней после выпуска бесплатного и с лицензированием с открытым исходным кодом то, что сейчас является главной неэтиализирующейся большой языковой моделью (LLM) в мире-полная остановка, даже по сравнению с проприетарными моделями ИИ из хорошо финансируемых американских лабораторий, таких как Google и Openai,-в форме длинно именованных QWEN3-235B-A22507, эта группа, эта группа, поставлена на еще один блокбст.

То есть QWEN3-CODER-480B-A35B-InstructНовый LLM с открытым исходным кодом сосредоточен на оказании помощи в разработке программного обеспечения. Он предназначен для обработки сложных многоэтапных рабочих процессов кодирования и может создать полноценные функциональные приложения в секунды или минуты.

Модель позиционируется для конкуренции с проприетарными предложениями, такими как Claude Sonnet-4 в задачах агентского кодирования, и устанавливает новые базовые оценки среди открытых моделей.

Он доступен на обнимании лица, Github, Qwen Chat, через QWEN API Alibaba, а также растущий список сторонних платформ кодирования и инструментов AI.

Лицензирование с открытым источником означает низкую стоимость и высокую опциону для предприятий

Но в отличие от Claude и других проприетарных моделей, QWEN3-Coder, который мы будем на короткое время, теперь доступен в рамках лицензии Apache 2.0 с открытым исходным кодом, что означает, что любое предприятие будет бесплатно без зарядки, загрузки, изменений, развертывания и использования в своих коммерческих приложениях для сотрудников или конечных клиентов без платы Alibaba или любого другого.

Это также так высокопрофессионально в отношении сторонних критериев и анекдотического использования среди пользователей ИИ для «кодирования атмосфера»-кодирования с использованием естественного языка и без формальных процессов и шагов развития-что, по крайней мере, один исследователь LLM Себастьян Рашка, пишет на X, что:: «Это может быть лучшей моделью кодирования.

Разработчики и предприятия, заинтересованные в его загрузке, могут найти код в репозитории обнимания кода ИИ.

Предприятия, которые не хотят или не имеют возможности размещать модель самостоятельно или через различных сторонних поставщиков облачных выводов, также могут использовать ее непосредственно через API Alibaba Cloud QWEN, где затраты на токен на за миллион начинается с 1 доллара США за миллион. 6 долларов США/60 долларов за полный миллион.

Модельная архитектура и возможности

Согласно документации, опубликованной QWEN Team Online, QWEN3-Coder представляет собой модель смеси экспертов (MOE) с 480 миллиардами общего количества параметров, 35 миллиардов активности на запрос и 8 активных экспертов из 160.

Он поддерживает длину контекста токена 256 тыс. Назначительно с экстраполяцией до 1 миллиона токенов, использующих пряжу (еще одна экстраполяция веревки — метод, используемый для расширения длины контекста языковой модели за пределами его первоначального ограничения обучения путем изменения вращающихся позиционных внедрений (веревка), используемой во время вычисления внимания. Эта способность позволяет модели понимать и управлять целыми репозиториями или документами в одном проходе.

Разработанный в качестве модели причинного языка, он включает 62 слоя, 96 головок внимания для запросов и 8 для пар клавишных значений. Он оптимизирован для токеновых, подходящих для инструкций задач и опускает поддержку для блоков по умолчанию, оптимизируя свои выходы.

Высокая производительность

QWEN3-Coder достиг ведущей производительности среди открытых моделей на нескольких агентских оценках:

  • Swe-Bench подтвержден: 67,0% (стандарт), 69,6% (500-летний)
  • GPT-4.1: 54,6%
  • Предварительный просмотр Gemini 2.5 Pro: 49,0%
  • Claude Sonnet-4: 70,4%

Модель также конкурентно оценивает такие задачи, как использование агентского браузера, многоязычное программирование и использование инструментов. Визуальные тесты демонстрируют прогрессивное улучшение между итерациями обучения в таких категориях, как генерация кода, программирование SQL, редактирование кода и следующие инструкции.

Параметры инструментов и интеграции

Наряду с моделью, QWEN имеет QWEN Code с открытым исходным кодом, инструмент CLI, разбросанный из кода Gemini. Этот интерфейс поддерживает вызов функций и структурированные подсказки, что облегчает интеграцию QWEN3-Coder в кодирование рабочих процессов. Код QWEN поддерживает среды node.js и может быть установлен через NPM или из источника.

QWEN3-Coder также интегрируется с такими платформами разработчиков, как:

  • Claude Code (через прокси -сервер Dashscope или настройку маршрутизатора)
  • Клайн (как открытый бэкэнд)
  • Ollama, Lmstudio, Mlx-LM, Llama.cpp и Ktransformers

Разработчики могут запускать QWEN3-Coder локально или подключаться через API-совместимые с OpenAI, используя конечные точки, размещенные в Alibaba Cloud.

Методы после тренировки: код RL и Планирование длинного хоризона

В дополнение к предварительной подготовке на 7,5 триллиона токена (70% кода), QWEN3-Coder выигрывает от передовых методов после тренировки:

  • Код RL (обучение подкрепления): подчеркивает высококачественное обучение, ориентированное на выполнение, на различные, проверенные задачи кода
  • Агент Long-Horizon RL: обучает модель планировать, использовать инструменты и адаптироваться к многообразивому взаимодействию

Этот этап имитирует реальные проблемы разработки программного обеспечения. Чтобы включить это, QWEN построил систему в размере 20 000 средств в облаке Alibaba, предлагая масштаб, необходимую для оценки и обучения моделей на сложных рабочих процессах, подобных тем, которые встречаются в Swe-Bench.

Последствия предприятия: ИИ для инженерии и рабочих процессов DevOps

Для предприятий QWEN3-Coder предлагает открытую, очень способную альтернативу проприетарным моделям с закрытым исходным кодом. При высоких результатах в выполнении кодирования и рассуждениях о длинном контексте, это особенно актуально для:

  • Понимание на уровне кодовой базы: Идеально подходит для систем ИИ, которые должны понимать большие репозитории, техническую документацию или архитектурные модели
  • Автоматизированные рабочие процессы запроса на вытягивание: Его способность планировать и адаптироваться по очереди делает его подходящим для автоматического генерации или просмотра запросов на тяжесть
  • Интеграция инструмента и оркестровка: Через свой собственный интерфейс API-интерфейс и функциональный интерфейс, модель может быть встроена во внутренние инструменты и системы CI/CD. Это делает его особенно жизнеспособным для агентских рабочих процессов и продуктов, т.е. те, где пользователь вызывает одну или несколько задач, которые он хочет, чтобы модель ИИ снялась и делала самостоятельно, сами по себе проверяет только после того, как заканчивается или когда возникают вопросы.
  • Данные резидентуры и контроль затрат: В качестве открытой модели предприятия могут развернуть QWEN3-Coder в своей собственной инфраструктуре-ли облачный тур

Поддержка длинных контекстов и вариантов развертывания модульного развертывания в различных средах разработчиков делает QWEN3-Coder кандидатом на производственные трубопроводы AI как в крупных технологических компаниях, так и в небольших инженерных командах.

Доступ к разработчику и лучшие практики

Чтобы оптимально использовать QWEN3-Coder, QWEN рекомендует:

  • Настройки отбора проб: температура = 0,7, TOP_P = 0,8, TOP_K = 20, Repetition_penalty = 1,05
  • Длина вывода: до 65 536 токенов
  • Версия трансформаторов: 4.51.0 или более поздней версии (более старые версии могут бросить ошибки из -за несовместимости QWEN3_MOE)

Примеры API и SDK предоставляются с использованием CopenAI-совместимых клиентов Python.

Разработчики могут определять пользовательские инструменты и позволить QWEN3-Coder динамически вызывать их во время разговоров или задач генерации кода.

Теплый ранний прием от пользователей Power Power

Первоначальные ответы на QWEN3-CODER-480B-A35B-объект были заметно положительными среди исследователей ИИ, инженеров и разработчиков, которые протестировали модель в реальных рабочих процессах кодирования.

В дополнение к высокой похвале Рашки, выше, Wolfram Ravenwolf, инженера и оценщика ИИ в Ellamindai, поделился своим опытом, интегрируя модель с Claude Code на X, заявив, что «Это, безусловно, лучший в настоящее время».

После тестирования нескольких прокси интеграции Ravenwolf сказал, что в конечном итоге он создал свой собственный, используя Litellm для обеспечения оптимальной производительности, демонстрируя привлекательность модели к практическим практикующим, ориентированным на настройку инструментов.

Педагог и Tinkerer Ai Кевин Нельсон также взвесили X после использования модели для задач моделирования.

«Qwen 3 Coder находится на другом уровне», Он опубликовал, отметив, что модель не только выполнялась на предоставленных лесах, но даже внедрила сообщение в выходные данные симуляции — неожиданный, но желанный признак осознания модели о контексте задачи.

Даже соучредитель Twitter и основатель Square (теперь называемый «Block») Джек Дорси опубликовал сообщение X в похвале модели, написав: «Goose + qwen3-coder = вау,«В связи с тем, что его агент с открытым исходным исходным исходным кодом Goose, который VentureBeat покрыл еще в январе 2025 года.

Эти ответы предполагают, что QWEN3-Coder резонирует с технически подкованной базой пользователей, ищущей производительность, адаптивность и более глубокую интеграцию с существующими стеками разработки.

Заглядывая в будущее: больше размеров, больше вариантов использования

В то время как этот релиз фокусируется на самом мощном варианте, QWEN3-CODER-480B-A35B-объект, команда QWEN указывает, что дополнительные размеры модели находятся в разработке.

Они будут направлены на то, чтобы предложить аналогичные возможности с более низкими затратами на развертывание, расширяя доступность.

Будущая работа также включает в себя изучение самосовершенствования, поскольку команда исследует, могут ли агентские модели итеративно усовершенствовать свои собственные результаты с помощью реального использования.



Источник
Новости

Смесь рекурсий приносит в 2 раза быстрее выводы-вот как ее реализовать

admin 23.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Исследователи из KAIST AI и MILA представили новую архитектуру трансформатора, которая делает большие языковые модели (LLMS) большей памятью и вычислительную эффективность. Архитектура, называемая смесью рекурсий (MOR), значительно повышает точность модели и обеспечивает более высокую пропускную способность по сравнению с ванильными трансформаторами, даже если они ограничены тем же количеством параметров и вычислением бюджета.

Проблемы масштабирования LLMS

Впечатляющие возможности сегодняшних LLM напрямую связаны с их постоянно растущим размером. Но поскольку эти модели масштабируются, их следов памяти и вычислительные требования часто становятся несостоятельными, что делает сложные как обучение, так и развертывание для организаций за пределами центров обработки данных гиперспекты. Это привело к поиску более эффективных проектов.

Усилия по повышению эффективности LLM были сосредоточены в основном на двух методах: обмен параметрами и адаптивные вычисления. Методы совместного использования параметров уменьшают общее количество уникальных параметров, повторно используя веса в разных частях модели, тем самым уменьшая общую вычислительную сложность. Например, «связывание слоя» — это техника, которая повторно использует вес модели на нескольких слоях. Адаптивные методы вычисления настраивают модели так, чтобы они использовали только столько ресурсов вывода, сколько им необходимо. Например, «раннее выход» динамически распределяет вычислитель, позволяя модели прекратить обработку «более простых» токенов на ранних этапах сети.

Однако создание архитектуры, которая эффективно объединяет как эффективность параметров, так и адаптивные вычисления, остается неуловимым.

Как работает смеси рекурсий

Смесь рекурсий-это структура, которая объединяет обмен параметрами с адаптивными вычислениями для решения высоких вычислительных требований LLMS. Он основан на концепции рекурсивных трансформаторов, моделей, которые неоднократно применяют набор общих слоев несколько раз. Вместо глубокой стопки уникальных слоев рекурсивный трансформатор разделяет модель на несколько «рекурсионных блоков», каждый с общим пулом параметров. Эта конструкция обеспечивает больше вычислений без увеличения размера модели.

MOR усиливает этот рекурсивный подход с двумя ключевыми компонентами. Первый — это легкий маршрутизатор, который разумно назначает определенную глубину рекурсии каждому токену. Эта концепция аналогична механизму маршрутизации в моделях смеси экспертов (MOE), где маршрутизатор направляет токены на специализированные экспертные сети. В MOR, однако, «эксперты» представляют собой различные глубины рекурсии, что позволяет модели выбирать, сколько вычислений динамически применить к каждому токену. Он решает, сколько раз следует применяться общий блок слоев на основе сложности токена или его необходимой «глубины мышления». Это направляет вычисление только там, где это наиболее необходимо, избегая потраченных циклов на простых в процессе процесса ввода.

Смесь рекурсии (источник: arxiv)
Смесь рекурсии Источник: Arxiv

Второй компонент представляет собой более эффективную стратегию кэширования ключей (KV). Кэширование KV — это стандартный метод, который хранит информацию от предыдущих токенов, чтобы ускорить генерацию, но он становится узким местом памяти в рекурсивных моделях. MOR представляет механизм кэширования «рекурсия», который избирательно хранит и извлекает пары ключей только для токенов, которые все еще активны на данном этапе рекурсии. Это целевое кэширование уменьшает трафик памяти и улучшает пропускную способность без необходимости сложных модификаций после тренировки.

Как утверждают исследователи в своей статье, «по сути, MOR позволяет моделям эффективно регулировать глубину своего мышления на основе для заклинания, объединяя эффективность параметров с адаптивными вычислениями».

Различные механизмы маршрутизации токенов и кэширование кВ для рекурсивных трансформаторов (источник: arxiv)
Различные механизмы маршрутизации токенов и кэширование кВ для рекурсивных трансформаторов Источник: arxiv

Мор в действии

Чтобы проверить свою структуру, исследователи обучили модели MOR в диапазоне от 135 миллионов до 1,7 миллиарда параметров и сравнили их с ванильными и стандартными рекурсивными базовыми моделями по утрате и показателям точности.

Результаты демонстрируют значительные выгоды. При предоставлении равной учебной учебы в бюджете MOR модель MOR достигла более высокой средней точности с небольшим выстрелом (43,1% против 42,3%), чем базовая линия ванили, несмотря на то, что они использовали почти на 50% меньше параметров. При обучении на том же объеме данных модель MOR сократила время обучения на 19% и сократила использование пиковой памяти на 25% по сравнению с ванильной моделью.

Архитектура MOR также оказывается масштабируемой. В то время как он слегка снизил ванильную модель в наименьшей масштабе параметров 135 м, зазор быстро закрылся по мере увеличения размера модели. Для моделей с более чем 360 -метровыми параметрами MOR соответствовал или превышал производительность стандартных трансформаторов, особенно при более низких вычислительных бюджетах. Кроме того, дизайн MOR резко повышает пропускную способность вывода. Одна конфигурация MOR достигла скорости 2,06x над базовой линией ванили. Для компании, работающей в масштабе, это может привести к значительной экономии эксплуатационных расходов.

Sangmin Bae, соавтор газеты и аспирант в Kaist, разбил практическое влияние в электронном письме на Venturebeat. «В то время как трудно предоставить точные числа, на высоком уровне, уменьшение размера параметров модели и следов кэша KV означает, что мы можем выполнить вывод на много других образцов одновременно», — сказал он. «Это приводит к увеличению количества токенов, обработанных одновременно, и обработка более длинных контекстов становится возможной».

Практический путь для принятия предприятий

В то время как результаты статьи поступают из моделей, обученных с нуля, ключевым вопросом для предприятий является то, как принять MOR без массовых авансовых инвестиций. Согласно BAE, «подъемные» существующие модели с открытым исходным кодом являются «определенно более экономически эффективным подходом». Он отметил, что во время обучения новой модели проста, «подход к подготовке может быть более подходящим и эффективным, пока масштабируемость самого MOR не будет полностью проверена».

Принятие MOR также вводит новые архитектурные «ручки» для разработчиков, позволяя им точно установить баланс между производительностью и эффективностью. Этот компромисс будет полностью зависеть от потребностей приложения.

«Для более простых задач или сценариев может быть полезно использовать модели с большим количеством рекурсий, предлагая большую гибкость и наоборот», — объяснил Баэ. Он подчеркнул, что «оптимальные настройки будут сильно зависеть от конкретной настройки развертывания», поощряя команды исследовать компромиссы на основе выводов газеты.

Заглядывая в будущее, MOR Framework является «модальной агростой», что означает, что его принципы адаптивных вычислений не ограничены текстом. Это открывает дверь к значительному повышению эффективности при обработке видео, аудио и других сложных типов данных.

«Мы очень взволнованы его потенциальным расширением сценариев мультимодальности, где повышение эффективности имеет решающее значение»,-сказал Бэ.

Динамически регулируя глубину обработки для каждого сегмента видео или аудио-потока, MOR может разблокировать еще большую экономию затрат и улучшение производительности, что привнесло мощность крупномасштабного ИИ в более широкий диапазон корпоративных приложений. Как заключает статья, MOR предлагает «эффективный путь к достижению возможностей крупной модели со значительно уменьшенным вычислительным и накладным расходом памяти».



Источник
Новости

Intuit приносит агент AI в организации, спасающие средний рынок от 17 до 20 часов в месяц

admin 23.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Один из самых быстрорастущих сегментов бизнес-рынка сталкивается с технологическим парадоксом. Они переросли инструменты малого бизнеса, но иногда остаются слишком маленькими для многих типов традиционных предприятий.

Это домен среднего рынка, который Intuit определяет как компании, которые приносят от 2,5 до 100 миллионов долларов годовой доход. Организации среднего маркета, как правило, работают не так, как малые предприятия, так и крупные предприятия. Малые предприятия могут работать в семи приложениях. Компании среднего рынка обычно жонглируют 25 или более отключенными программными инструментами по мере масштабирования. В отличие от предприятий с выделенными ИТ-командами и консолидированными платформами, организациям среднего уровня часто не хватает ресурсов для сложных проектов интеграции системы.

Это создает уникальную проблему развертывания ИИ. Как вы предоставляете интеллектуальную автоматизацию по фрагментированным, многочисленным бизнес-структурам, не требуя дорогостоящей консолидации платформы? Это проблема, которую Intuit, компания, стоящая за популярными услугами малого бизнеса, включая QuickBooks, Credit Karma, Turbotax и MailChimp, стремится решить.

В июне Intuit объявил о дебюте серии агентов искусственного интеллекта, предназначенных для того, чтобы помочь малым предприятиям платить быстрее и работать более эффективно. Расширенный набор агентов искусственного интеллекта в настоящее время вводится в Intuit Enterprise Suite, который предназначен для удовлетворения потребностей организаций среднего рынка.

Enterprise Suite представляет четыре ключевых агента ИИ — финансы, платежи, бухгалтерский учет и управление проектами — каждая из которых предназначена для оптимизации конкретных бизнес -процессов. Финансовый агент, например, может генерировать ежемесячные резюме производительности, потенциально сэкономив финансовые команды до 17-20 часов в месяц.

Развертывание предоставляет тематическое исследование при удовлетворении потребностей сегмента среднего рынка. Это показывает, почему ИИ среднего маркета требует принципиально различных технических подходов, чем для малых предприятий или предприятий.

«Эти агенты действительно об искусственном интеллекте в сочетании с человеческим интеллектом»,-сказал VentureBeat Эшли Стилл, исполнительный вице-президент и генеральный директор Mid-Market в Intuit. «Речь идет не о замене людей, а о том, чтобы сделать их более продуктивными и обеспечивать лучшую принятие решений».

Средние рыночные требования к искусственному интеллекту

Платформа Intuit AI была в разработке за последние несколько лет в компании под названием платформы Genos.

Основной фундамент включает в себя крупные языковые модели (LLMS), оперативную оптимизацию и уровень познания данных, который понимает различные типы данных. Компания создает агент для автоматизации сложных бизнес -процессов с 2024 года.

Агенты среднего маркета основаны на этой основе для удовлетворения конкретных потребностей организаций среднего уровня. В отличие от малых предприятий, которые могут иметь только одну линию операций, организация среднего уровня может иметь несколько линий бизнеса. Вместо того, чтобы требовать консолидации платформы или работы в качестве отключенных точечных решений, эти агенты функционируют в разных бизнес-структурах с несколькими предприятиями при глубокой интеграции с существующими рабочими процессами.

Финансовый агент иллюстрирует этот подход. Это не просто автоматизирует финансовую отчетность. Он создает консолидированные ежемесячные резюме, которые понимают отношения организации, изучают специфические для бизнеса метрики и определяют отклонения эффективности в разных частях организации.

Агент по управлению проектами удовлетворяет еще одну специфическую потребность в среднем рынке: анализ прибыльности в реальном времени для предприятий, основанных на проектах, работающих в нескольких организациях. До сих пор объяснил, что, например, строительные компании должны понимать прибыльность на основе проекта и видеть, что как можно более ранней жизни проекта. Это требует ИИ, который коррелирует данные проекта с структурами затрат, специфичными для организации, и моделью распознавания доходов.

Реализация без сбоев ускоряет принятие ИИ

Реальность для многих компаний в среднем рынка заключается в том, что они хотят использовать ИИ, но они не хотят справляться со сложностью.

«По мере роста бизнеса они добавляют больше приложений, фрагментируют данные и увеличивают сложность», — сказал все еще. «Наша цель — упростить это путешествие».

Что важно для успеха и усыновления, так это опыт. Все еще объяснил, что возможности ИИ среднего рынка являются не частью внешнего инструмента, а скорее интегрированный опыт. Речь идет не об использовании ИИ только потому, что это горячая технология; Речь идет о том, чтобы сделать сложные процессы быстрее и проще в завершении.

В то время как агент AI-опыт являются захватывающими новыми возможностями, простота использования, способствующая AI, начинается в начале, когда пользователи устанавливают Intuit Enterprise Suite, мигрируют из QuickBooks или даже просто электронные таблицы.

«Когда вы управляете всем в электронных таблицах или в разных версиях QuickBooks, в первый раз, когда вы на самом деле создаете свою структуру с несколькими предложениями, может быть большой работой, потому что вы управляли вещами повсюду»,-сказал все еще. «У нас есть опыт работы, он в основном делает это для вас, и создает таблицу счетов»

Все еще подчеркнул, что опыт работы в адаптировании является отличным примером чего-то, где даже не обязательно важно, чтобы люди знали, что это способствует AI. Для пользователя единственное, что действительно важно, это то, что это простой опыт.

Что это значит для предприятия

Технологические лица, оценивающие стратегии искусственного интеллекта в сложных бизнес-средах, могут использовать подход Intuit в качестве основы для мышления за пределами традиционного развертывания ИИ предприятия:

  1. Распределить решения, которые работают в рамках существующей оперативной сложности вместо того, чтобы требовать реструктуризации бизнеса вокруг возможностей ИИ.
  2. Сосредоточьтесь на искусственном интеллекте, который понимает отношения бизнесане только обработка данных.
  3. Искать интеграцию рабочего процесса по замене платформы Чтобы минимизировать риск реализации и сбои.
  4. Оценить AI ROI на основе стратегического обеспеченияне просто метрики автоматизации задач.

Уникальные потребности сегмента среднего рынка показывают, что наиболее успешные развертывания искусственного интеллекта обеспечат интеллект корпоративного уровня благодаря сложности реализации малого бизнеса.

Для предприятий, стремящихся руководить внедрением искусственного интеллекта, эта разработка означает признание того, что оперативная сложность является функцией, а не ошибкой. Ищите решения ИИ, которые работают в рамках этой сложности, а не требуют упрощения. Самый быстрый AI ROI будет из решений, которые понимают и улучшают существующие бизнес -процессы, а не заменяют их.



Источник
Новости

Открытый исходный код McPeval производит тестирование агента на уровне протокола Plug-and-Play

admin 23.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Предприятия начинают принимать протокол контекста модели (MCP), прежде всего, для облегчения идентификации и руководства использования инструмента агента. Тем не менее, исследователи из Salesforce обнаружили другой способ использования технологии MCP, на этот раз, чтобы помочь в оценке самих агентов ИИ.

Исследователи представили McPeval, новый метод и инструментарий с открытым исходным кодом, основанный на архитектуре системы MCP, которая проверяет производительность агента при использовании инструментов. Они отметили, что текущие методы оценки для агентов ограничены тем, что они «часто полагаются на статические, предварительно определенные задачи, что не смогло захватить интерактивные агентские рабочие процессы в реальном мире».

«McPeval выходит за рамки традиционных показателей успеха/сбоя путем систематического сбора подробных траекторий задач и данных о взаимодействии с протоколом, создавая беспрецедентную видимость в поведение агентов и создавая ценные наборы данных для итерационного улучшения», — сказали в статье. «Кроме того, поскольку как создание, так и проверку задач полностью автоматизированы, результирующие высококачественные траектории могут быть немедленно использованы для быстрого настройки и постоянного улучшения моделей агентов. Комплексные отчеты об оценке, созданные McPeval, также дают действенную информацию о правильной общении с агентом платформы на гранулярном уровне».

McPeval дифференцирует себя, будучи полностью автоматизированным процессом, который, как утверждали исследователи, позволяет быстро оценить новые инструменты и серверы MCP. Он оба собирают информацию о том, как агенты взаимодействуют с инструментами на сервере MCP, генерируют синтетические данные и создают базу данных для контрольных агентов. Пользователи могут выбрать, какие серверы и инструменты MCP на этих серверах для проверки производительности агента.

Шелби Хейнеке, старший менеджер по исследованию искусственного интеллекта в Salesforce и один из авторов статьи, заявила VentureBeat, что трудно получить точные данные о производительности агентов, особенно для агентов в специфических для домена ролях.

«Мы дошли до того, что, если вы посмотрите на технологическую индустрию, многие из нас выяснили, как их развернуть. Теперь нам нужно выяснить, как их правильно оценить», — сказал Хейнеке. «MCP — это очень новая идея, очень новая парадигма. Так что здорово, что агенты будут иметь доступ к инструментам, но нам снова нужно оценить агентов на этих инструментах. Это именно то, что такое McPeval».

Как это работает

Структура McPeval приобретает создание задач, проверку и дизайна оценки моделей. Используя несколько крупных языковых моделей (LLMS), чтобы пользователи могли выбрать работу с моделями, с которыми они более знакомы, агенты могут быть оценены с помощью различных доступных LLM на рынке.

Предприятия могут получить доступ к McPeval через инструментарий с открытым исходным кодом, выпущенный Salesforce. Через панель инструментов пользователи настраивают сервер, выбрав модель, которая затем автоматически генерирует задачи для агента, чтобы следовать на выбранном сервере MCP.

Как только пользователь проверяет задачи, McPeval затем выполняет задачи и определяет звонки инструментов, необходимые как наземная истина. Эти задачи будут использоваться в качестве основы для теста. Пользователи выбирают, какую модель они предпочитают запускать оценку. McPeval может генерировать отчет о том, насколько хорошо агент и тестовая модель функционировали при доступе и использовании этих инструментов.

По словам Хейнеке, МакПеваль не только собирает данные для контрольных агентов, но также может определить пробелы в результате эффективности агента. Информация, полученная путем оценки агентов через McPeval Works не только для проверки производительности, но и для обучения агентов для будущего использования.

«Мы видим, как МакПеваль превращается в универсальный магазин для оценки и исправления ваших агентов»,-сказал Хейнеке.

Она добавила, что то, что выделяет McPeval от других оценщиков агента, так это то, что он приводит тестирование в ту же среду, в которой будет работать агент. Агенты оцениваются о том, насколько хорошо они получают доступ к инструментам на сервере MCP, к которым они, вероятно, будут развернуты.

В статье отмечалось, что в экспериментах модели GPT-4 часто давали наилучшие результаты оценки.

Оценка производительности агента

Потребность в предприятиях начала тестирование и мониторинг производительности агента, привела к всплеске фреймворков и методов. Некоторые платформы предлагают тестирование и еще несколько методов оценки как краткосрочной, так и долгосрочной эффективности агента.

Агенты искусственного интеллекта будут выполнять задачи от имени пользователей, часто без необходимости, чтобы человек мог побудить их. До сих пор агенты оказались полезными, но они могут быть ошеломлены огромным количеством инструментов в их распоряжении.

Galileo, стартап, предлагает структуру, которая позволяет предприятиям оценивать качество выбора инструмента агента и определять ошибки. Salesforce запустила возможности на своей панели панели AgentForce для тестовых агентов. Исследователи из Сингапурского Университета Университета выпустили Agentspec для достижения и мониторинга надежности агента. Также было опубликовано несколько академических исследований по оценке MCP, в том числе MCP-Radar и McPworld.

MCP-Radar, разработанный исследователями из Университета Массачусетса Амхерст и Университета Xi’an Jiaotong, фокусируется на более общих навыках домена, таких как разработка программного обеспечения или математика. Эта структура приоритет эффективности и точности параметров.

С другой стороны, McPworld из постов и телекоммуникаций Пекинского университета привносит анализ графических пользовательских интерфейсов, API и других компьютерных агентов.

Хейнеке сказал, что в конечном итоге, как оцениваются агенты, будет зависеть от компании и варианта использования. Тем не менее, что имеет решающее значение, так это то, что предприятия выбирают наиболее подходящую структуру оценки для их конкретных потребностей. Для предприятий она предложила рассмотреть вопрос о домене, чтобы тщательно проверить, как агенты функционируют в реальных сценариях.

«В каждой из этих структур оценки есть ценность, и это отличные отправные точки, так как они дают некоторый ранний сигнал, насколько силен джентльмен», — сказал Хейнеке. «Но я думаю, что наиболее важной оценкой является ваша оценка, специфичная для домена, и представленные данные оценки, которые отражают среду, в которой будет работать агент».



Источник
Новости

Китайский стартап Manus бросает вызов CHATGPT в визуализации данных: какие предприятия должны использовать?

admin 22.07.2025
admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Обещание звучит почти слишком хорошо, чтобы быть правдой: отбросьте грязный файл запятой, разделенные значениями (CSV) в агент AI, подождите две минуты и получите отполированную интерактивную диаграмму, готовую к следующей презентации платы.

Но это именно то, что китайский стартап Manus.Im предоставляет с помощью своей последней функции визуализации данных, запущенной в этом месяце.

К сожалению, мое первоначальное практическое тестирование с поврежденными наборами данных показывает фундаментальную проблему предприятия: впечатляющие возможности в сочетании с недостаточной прозрачностью в отношении преобразования данных. В то время как Manus обрабатывает грязные данные лучше, чем CHATGPT, ни один из инструментов еще не готов к слайдам, готовым к залам.

Проблема с электронными таблицами, из -за которой Аналитика предприятия

Опрос Россума 470 финансовых лидеров обнаружил, что 58% по -прежнему полагаются в первую очередь на Excel для ежемесячных KPI, несмотря на владение лицензиями BI. Другое исследование Techradar оценивает, что общая зависимость от электронных таблиц затрагивает примерно 90% организаций-создавая «проблему данных последней мили» между управляемыми складами и поспешными экспортами CSV, которые приземляются в ящиках аналитиков за несколько часов до критических встреч.

Манус нацелен на этот точный разрыв. Загрузите свой CSV, опишите, что вы хотите на естественном языке, и агент автоматически очищает данные, выбирает соответствующую грамматику Vega-Lite и возвращает диаграмму PNG, готовую для экспорта-не требуется таблицы поворотов.

Где Manus бьет Chatgpt: 4x медленнее, но более точное с грязными данными

Я проверил расширенный анализ данных Manus и CHATGPT, используя три набора данных (113K-рядовые заказы на электронную коммерцию, маркетинговую воронку с 10 тысячи Row SaaS), сначала чистая, затем поврежденная с 5% инъекцией ошибок, включая нули, даты смешанных форматов и дублирования.

For example, testing the same prompt — "Show me a month-by-month revenue trend for the past year and highlight any unusual spikes or dips" — across clean and corrupted 113k-row e-commerce data revealed some stark differences.
ИнструментКачество данныхВремяОчищает нольДиаграммы датыОбрабатывает дубликатыКомментарии
МанусЧистый1:46N/a✓N/aПравильная тенденция, стандартная презентация, но неверные числа
МанусНеряшливый3:53✓✓✗Правильная тенденция, несмотря на неточные данные
ЧатгптЧистый0:57N/a✓N/aБыстрая, но неверная визуализация
ЧатгптНеряшливый0:59✗✗✗Неверная тенденция от нечистых данных

Для контекста: DeepSeek может обрабатывать только 1% от размера файла, в то время как Клод и Грок заняли более 5 минут, но производили интерактивные диаграммы без вариантов экспорта PNG.

Выходы:

Рисунок 1-2: выходы диаграммы из той же приглашения тенденции дохода по грязным данным электронной коммерции. Manus (внизу) создает когерентную тенденцию, несмотря на повреждение данных, в то время как CHATGPT (вверху) показывает искаженные закономерности из форматирования нечистой даты.

Манус ведет себя как осторожный младший аналитик — Автоматическое прилив данных перед диаграммой, успешные несоответствия даты анализа и обработка нулей без явных инструкций. Когда я запросил тот же анализ тенденций доходов по поврежденным данным, Manus занял почти 4 минуты, но создал последовательную визуализацию, несмотря на проблемы с качеством данных.

CHATGPT работает как кодировщик скорости — Приоритет быстрым выводом по поводу гигиены данных. Та же самая просьба заняла всего 59 секунд, но вызвала вводящую в заблуждение визуализации, потому что он не автоматически очищал несоответствия форматирования.

Тем не менее, оба инструмента потерпели неудачу с точки зрения «исполнительной готовности». Ни из которых не образуется, готовая к плате, масштабирование оси или читаемые этикетки без последующих подсказок. Метки данных часто были перекрывающимися или слишком маленькими, барные диаграммы не имели надлежащих сетей, и форматирование чисел было непоследовательным.

Кризисные предприятия прозрачности не могут игнорировать

Вот где Manus становится проблематичным для принятия предприятий: Агент никогда не поверхностят шаги очистки, которые он применяетПолем Аудитор, рассмотренный окончательный график, не может подтвердить, были ли выброшены, вменены или трансформированы выбросы.

Когда финансовый директор представляет ежеквартальные результаты, основанные на сгенерированной Manus, что происходит, когда кто-то спрашивает: «Как вы справляетесь с дублирующими транзакциями из интеграции системы Q2?» Ответ — тишина.

Chatgpt, Claude и Grok — все показывают свой код Python, хотя прозрачность через обзор кода не для бизнес -пользователей, не имеющих опыта программирования. Что нужно предприятиям, так это более простая аудиторская тропа, которая укрепляет доверие.

Ай-складской местный житель выступает впереди

В то время как Manus фокусируется на загрузках CSV, основные платформы создают генерацию графиков непосредственно в инфраструктуру корпоративных данных:

Google Близнецы в Бигкери Как правило, в августе 2024 года, что позволило генерации запросов SQL и встроенных визуализаций в живых таблицах при уважении к безопасности на уровне строк.

Microsoft’s Copilot в ткани Достигнув GA в опыте Power BI в мае 2024 года, создав визуальные эффекты внутри тканевых ноутбуков, работая непосредственно с наборами данных Lakehouse.

Гуддата помощник ИИзапущен в июне 2025 года, работает в средах клиентов и уважает существующие семантические модели, позволяя пользователям задавать вопросы на простом языке, получая ответы, которые соответствуют предопределенным показателям и бизнес -терминам.

Эти складские решения полностью устраняют экспорт CSV, сохраняют полную линию данных и используют существующие модели безопасности-преимущества файлов-файлов-загрузки, такие как Manus, борется за то, чтобы соответствовать.

Критические пробелы для принятия предприятий

Мои тестирование выявило несколько блокаторов:

Подключение к живым данным Остается отсутствует — Manus поддерживает только загрузку файлов, без снежинок, разъемов BigQuery или S3. Manus.im говорит, что разъемы «на дорожной карте», но не предлагает временной шкалы.

Аудиторская тропа прозрачность полностью отсутствует. Команды корпоративных данных нуждаются в журналах преобразования, показывающих, как именно AI чистил их данные, и правильная ли его интерпретация полей.

Экспортная гибкость ограничен выходами PNG. Несмотря на то, что предприятия нуждаются в настраиваемых интерактивных экспортных параметрах.

Вердикт: впечатляющие технологии, преждевременные для предприятий.

Для руководителей SMB тонут в анализе Ad-HOC CSV, визуализация Manus с перетаскиванием, похоже, выполняет эту работу.

Автономная очистка данных обрабатывает в реальном мире беспорядок, который в противном случае потребует ручной предварительной обработки, сокращая поворот от часов до нескольких минут, когда у вас есть разумные данные.

Кроме того, он предлагает значительное преимущество во время выполнения по сравнению с Excel или Google Sheets, которые требуют ручных поворотов и обеспечивают значительное время нагрузки из -за локальных ограничений вычислительной мощности.

Но регулируемые предприятия с управляемыми озерами данных должны ждать, пока агенты, такие как Gemini или Fabric Copilot, должны держать данные, которые хранят данные внутри периметра безопасности и поддерживают полное отслеживание линии.

Итог: Manus доказывает, что однопрофессиональные работы впечатляюще обрабатывают грязные данные. Но для предприятий вопрос не в том, хорошо ли диаграммы выглядят хорошо — это может ли вы нанести свою карьеру на преобразованиях данных, которые вы не можете проверить или проверить. Пока агенты ИИ не смогут подключаться непосредственно к управляемым столам со строгими аудиторскими тропами, Excel будет продолжать играть свою главную роль в ежеквартальных презентациях.



Источник
  • 1
  • …
  • 11
  • 12
  • 13
  • 14
  • 15
  • …
  • 26

Свежие записи

  • GPT-5
  • Фестиваль Original+ представляет программу конкурса «Номинация Инновация»
  • Luma представила ИИ-агентов для креативной индустрии
  • Объявлены победители XVII Национальной премии «Большая цифра»
  • Заменит ли ИИ преподавателей через 5 лет?

About Me

About Me

Designer

Sed ut perspiciatis unde omnis iste natus sit voluptatem accusantium dolor emque.

Keep in touch

Facebook Twitter Instagram Pinterest Behance Youtube

Popular Posts

  • 1

    Openai-Anpropic Cross-тесты подвергают риски джейлбрейка и неправильного использования-что предприятия должны добавить к оценкам GPT-5

  • 2

    Попытки Маск политизировать его AI Grok плохи для пользователей и предприятий — вот почему

  • 3

    Конец эры программистов: Перспективы и вызовы в эпоху искусственного интеллекта

  • 4

    Эффективное использование голосовых ИИ-инструментов: Yandex SpeechKit, Sber SaluteSpeech и другие

  • 5

    Новая архитектура искусственного интеллекту

  • 6

    Web Design Trends For “Start Here” Pages

Рубрики

  • App Design (6)
  • UI/UX (7)
  • Web Design (7)
  • ИИ в бизнесе (42)
  • ИИ в жизни (34)
  • ИИ в искусстве (66)
  • ИИ в науке (43)
  • Новости (255)
  • Обзор сервисов (34)
  • Pinterest
  • Youtube
  • Email
  • Vk
  • Yandex

@2025 - All Right Reserved. Designed and Developed by PenciDesign

Новости искусственного интеллекта и технологий
  • Новости
  • Обзор сервисов
  • ИИ в искусстве
  • ИИ в бизнесе
  • ИИ в науке
  • ИИ в жизни