Автор

admin

Открытый исходный код McPeval производит тестирование агента на уровне протокола Plug-and-Play

admin 23.07.2025

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Предприятия начинают принимать протокол контекста модели (MCP), прежде всего, для облегчения идентификации и руководства использования инструмента агента. Тем не менее, исследователи из Salesforce обнаружили другой способ использования технологии MCP, на этот раз, чтобы помочь в оценке самих агентов ИИ.

Исследователи представили McPeval, новый метод и инструментарий с открытым исходным кодом, основанный на архитектуре системы MCP, которая проверяет производительность агента при использовании инструментов. Они отметили, что текущие методы оценки для агентов ограничены тем, что они «часто полагаются на статические, предварительно определенные задачи, что не смогло захватить интерактивные агентские рабочие процессы в реальном мире».

«McPeval выходит за рамки традиционных показателей успеха/сбоя путем систематического сбора подробных траекторий задач и данных о взаимодействии с протоколом, создавая беспрецедентную видимость в поведение агентов и создавая ценные наборы данных для итерационного улучшения», — сказали в статье. «Кроме того, поскольку как создание, так и проверку задач полностью автоматизированы, результирующие высококачественные траектории могут быть немедленно использованы для быстрого настройки и постоянного улучшения моделей агентов. Комплексные отчеты об оценке, созданные McPeval, также дают действенную информацию о правильной общении с агентом платформы на гранулярном уровне».

McPeval дифференцирует себя, будучи полностью автоматизированным процессом, который, как утверждали исследователи, позволяет быстро оценить новые инструменты и серверы MCP. Он оба собирают информацию о том, как агенты взаимодействуют с инструментами на сервере MCP, генерируют синтетические данные и создают базу данных для контрольных агентов. Пользователи могут выбрать, какие серверы и инструменты MCP на этих серверах для проверки производительности агента.

Шелби Хейнеке, старший менеджер по исследованию искусственного интеллекта в Salesforce и один из авторов статьи, заявила VentureBeat, что трудно получить точные данные о производительности агентов, особенно для агентов в специфических для домена ролях.

«Мы дошли до того, что, если вы посмотрите на технологическую индустрию, многие из нас выяснили, как их развернуть. Теперь нам нужно выяснить, как их правильно оценить», — сказал Хейнеке. «MCP — это очень новая идея, очень новая парадигма. Так что здорово, что агенты будут иметь доступ к инструментам, но нам снова нужно оценить агентов на этих инструментах. Это именно то, что такое McPeval».

Как это работает

Структура McPeval приобретает создание задач, проверку и дизайна оценки моделей. Используя несколько крупных языковых моделей (LLMS), чтобы пользователи могли выбрать работу с моделями, с которыми они более знакомы, агенты могут быть оценены с помощью различных доступных LLM на рынке.

Предприятия могут получить доступ к McPeval через инструментарий с открытым исходным кодом, выпущенный Salesforce. Через панель инструментов пользователи настраивают сервер, выбрав модель, которая затем автоматически генерирует задачи для агента, чтобы следовать на выбранном сервере MCP.

Как только пользователь проверяет задачи, McPeval затем выполняет задачи и определяет звонки инструментов, необходимые как наземная истина. Эти задачи будут использоваться в качестве основы для теста. Пользователи выбирают, какую модель они предпочитают запускать оценку. McPeval может генерировать отчет о том, насколько хорошо агент и тестовая модель функционировали при доступе и использовании этих инструментов.

По словам Хейнеке, МакПеваль не только собирает данные для контрольных агентов, но также может определить пробелы в результате эффективности агента. Информация, полученная путем оценки агентов через McPeval Works не только для проверки производительности, но и для обучения агентов для будущего использования.

«Мы видим, как МакПеваль превращается в универсальный магазин для оценки и исправления ваших агентов»,-сказал Хейнеке.

Она добавила, что то, что выделяет McPeval от других оценщиков агента, так это то, что он приводит тестирование в ту же среду, в которой будет работать агент. Агенты оцениваются о том, насколько хорошо они получают доступ к инструментам на сервере MCP, к которым они, вероятно, будут развернуты.

В статье отмечалось, что в экспериментах модели GPT-4 часто давали наилучшие результаты оценки.

Оценка производительности агента

Потребность в предприятиях начала тестирование и мониторинг производительности агента, привела к всплеске фреймворков и методов. Некоторые платформы предлагают тестирование и еще несколько методов оценки как краткосрочной, так и долгосрочной эффективности агента.

Агенты искусственного интеллекта будут выполнять задачи от имени пользователей, часто без необходимости, чтобы человек мог побудить их. До сих пор агенты оказались полезными, но они могут быть ошеломлены огромным количеством инструментов в их распоряжении.

Galileo, стартап, предлагает структуру, которая позволяет предприятиям оценивать качество выбора инструмента агента и определять ошибки. Salesforce запустила возможности на своей панели панели AgentForce для тестовых агентов. Исследователи из Сингапурского Университета Университета выпустили Agentspec для достижения и мониторинга надежности агента. Также было опубликовано несколько академических исследований по оценке MCP, в том числе MCP-Radar и McPworld.

MCP-Radar, разработанный исследователями из Университета Массачусетса Амхерст и Университета Xi’an Jiaotong, фокусируется на более общих навыках домена, таких как разработка программного обеспечения или математика. Эта структура приоритет эффективности и точности параметров.

С другой стороны, McPworld из постов и телекоммуникаций Пекинского университета привносит анализ графических пользовательских интерфейсов, API и других компьютерных агентов.

Хейнеке сказал, что в конечном итоге, как оцениваются агенты, будет зависеть от компании и варианта использования. Тем не менее, что имеет решающее значение, так это то, что предприятия выбирают наиболее подходящую структуру оценки для их конкретных потребностей. Для предприятий она предложила рассмотреть вопрос о домене, чтобы тщательно проверить, как агенты функционируют в реальных сценариях.

«В каждой из этих структур оценки есть ценность, и это отличные отправные точки, так как они дают некоторый ранний сигнал, насколько силен джентльмен», — сказал Хейнеке. «Но я думаю, что наиболее важной оценкой является ваша оценка, специфичная для домена, и представленные данные оценки, которые отражают среду, в которой будет работать агент».

Источник

Новости

Китайский стартап Manus бросает вызов CHATGPT в визуализации данных: какие предприятия должны использовать?

admin 22.07.2025

admin

Обещание звучит почти слишком хорошо, чтобы быть правдой: отбросьте грязный файл запятой, разделенные значениями (CSV) в агент AI, подождите две минуты и получите отполированную интерактивную диаграмму, готовую к следующей презентации платы.

Но это именно то, что китайский стартап Manus.Im предоставляет с помощью своей последней функции визуализации данных, запущенной в этом месяце.

К сожалению, мое первоначальное практическое тестирование с поврежденными наборами данных показывает фундаментальную проблему предприятия: впечатляющие возможности в сочетании с недостаточной прозрачностью в отношении преобразования данных. В то время как Manus обрабатывает грязные данные лучше, чем CHATGPT, ни один из инструментов еще не готов к слайдам, готовым к залам.

Проблема с электронными таблицами, из -за которой Аналитика предприятия

Опрос Россума 470 финансовых лидеров обнаружил, что 58% по -прежнему полагаются в первую очередь на Excel для ежемесячных KPI, несмотря на владение лицензиями BI. Другое исследование Techradar оценивает, что общая зависимость от электронных таблиц затрагивает примерно 90% организаций-создавая «проблему данных последней мили» между управляемыми складами и поспешными экспортами CSV, которые приземляются в ящиках аналитиков за несколько часов до критических встреч.

Манус нацелен на этот точный разрыв. Загрузите свой CSV, опишите, что вы хотите на естественном языке, и агент автоматически очищает данные, выбирает соответствующую грамматику Vega-Lite и возвращает диаграмму PNG, готовую для экспорта-не требуется таблицы поворотов.

Где Manus бьет Chatgpt: 4x медленнее, но более точное с грязными данными

Я проверил расширенный анализ данных Manus и CHATGPT, используя три набора данных (113K-рядовые заказы на электронную коммерцию, маркетинговую воронку с 10 тысячи Row SaaS), сначала чистая, затем поврежденная с 5% инъекцией ошибок, включая нули, даты смешанных форматов и дублирования.

For example, testing the same prompt — "Show me a month-by-month revenue trend for the past year and highlight any unusual spikes or dips" — across clean and corrupted 113k-row e-commerce data revealed some stark differences.

Инструмент	Качество данных	Время	Очищает ноль	Диаграммы даты	Обрабатывает дубликаты	Комментарии
Манус	Чистый	1:46	N/a	✓	N/a	Правильная тенденция, стандартная презентация, но неверные числа
Манус	Неряшливый	3:53	✓	✓	✗	Правильная тенденция, несмотря на неточные данные
Чатгпт	Чистый	0:57	N/a	✓	N/a	Быстрая, но неверная визуализация
Чатгпт	Неряшливый	0:59	✗	✗	✗	Неверная тенденция от нечистых данных

Для контекста: DeepSeek может обрабатывать только 1% от размера файла, в то время как Клод и Грок заняли более 5 минут, но производили интерактивные диаграммы без вариантов экспорта PNG.

Выходы:

Рисунок 1-2: выходы диаграммы из той же приглашения тенденции дохода по грязным данным электронной коммерции. Manus (внизу) создает когерентную тенденцию, несмотря на повреждение данных, в то время как CHATGPT (вверху) показывает искаженные закономерности из форматирования нечистой даты.

Манус ведет себя как осторожный младший аналитик — Автоматическое прилив данных перед диаграммой, успешные несоответствия даты анализа и обработка нулей без явных инструкций. Когда я запросил тот же анализ тенденций доходов по поврежденным данным, Manus занял почти 4 минуты, но создал последовательную визуализацию, несмотря на проблемы с качеством данных.

CHATGPT работает как кодировщик скорости — Приоритет быстрым выводом по поводу гигиены данных. Та же самая просьба заняла всего 59 секунд, но вызвала вводящую в заблуждение визуализации, потому что он не автоматически очищал несоответствия форматирования.

Тем не менее, оба инструмента потерпели неудачу с точки зрения «исполнительной готовности». Ни из которых не образуется, готовая к плате, масштабирование оси или читаемые этикетки без последующих подсказок. Метки данных часто были перекрывающимися или слишком маленькими, барные диаграммы не имели надлежащих сетей, и форматирование чисел было непоследовательным.

Кризисные предприятия прозрачности не могут игнорировать

Вот где Manus становится проблематичным для принятия предприятий: Агент никогда не поверхностят шаги очистки, которые он применяетПолем Аудитор, рассмотренный окончательный график, не может подтвердить, были ли выброшены, вменены или трансформированы выбросы.

Когда финансовый директор представляет ежеквартальные результаты, основанные на сгенерированной Manus, что происходит, когда кто-то спрашивает: «Как вы справляетесь с дублирующими транзакциями из интеграции системы Q2?» Ответ — тишина.

Chatgpt, Claude и Grok — все показывают свой код Python, хотя прозрачность через обзор кода не для бизнес -пользователей, не имеющих опыта программирования. Что нужно предприятиям, так это более простая аудиторская тропа, которая укрепляет доверие.

Ай-складской местный житель выступает впереди

В то время как Manus фокусируется на загрузках CSV, основные платформы создают генерацию графиков непосредственно в инфраструктуру корпоративных данных:

Google Близнецы в Бигкери Как правило, в августе 2024 года, что позволило генерации запросов SQL и встроенных визуализаций в живых таблицах при уважении к безопасности на уровне строк.

Microsoft’s Copilot в ткани Достигнув GA в опыте Power BI в мае 2024 года, создав визуальные эффекты внутри тканевых ноутбуков, работая непосредственно с наборами данных Lakehouse.

Гуддата помощник ИИзапущен в июне 2025 года, работает в средах клиентов и уважает существующие семантические модели, позволяя пользователям задавать вопросы на простом языке, получая ответы, которые соответствуют предопределенным показателям и бизнес -терминам.

Эти складские решения полностью устраняют экспорт CSV, сохраняют полную линию данных и используют существующие модели безопасности-преимущества файлов-файлов-загрузки, такие как Manus, борется за то, чтобы соответствовать.

Критические пробелы для принятия предприятий

Мои тестирование выявило несколько блокаторов:

Подключение к живым данным Остается отсутствует — Manus поддерживает только загрузку файлов, без снежинок, разъемов BigQuery или S3. Manus.im говорит, что разъемы «на дорожной карте», но не предлагает временной шкалы.

Аудиторская тропа прозрачность полностью отсутствует. Команды корпоративных данных нуждаются в журналах преобразования, показывающих, как именно AI чистил их данные, и правильная ли его интерпретация полей.

Экспортная гибкость ограничен выходами PNG. Несмотря на то, что предприятия нуждаются в настраиваемых интерактивных экспортных параметрах.

Вердикт: впечатляющие технологии, преждевременные для предприятий.

Для руководителей SMB тонут в анализе Ad-HOC CSV, визуализация Manus с перетаскиванием, похоже, выполняет эту работу.

Автономная очистка данных обрабатывает в реальном мире беспорядок, который в противном случае потребует ручной предварительной обработки, сокращая поворот от часов до нескольких минут, когда у вас есть разумные данные.

Кроме того, он предлагает значительное преимущество во время выполнения по сравнению с Excel или Google Sheets, которые требуют ручных поворотов и обеспечивают значительное время нагрузки из -за локальных ограничений вычислительной мощности.

Но регулируемые предприятия с управляемыми озерами данных должны ждать, пока агенты, такие как Gemini или Fabric Copilot, должны держать данные, которые хранят данные внутри периметра безопасности и поддерживают полное отслеживание линии.

Итог: Manus доказывает, что однопрофессиональные работы впечатляюще обрабатывают грязные данные. Но для предприятий вопрос не в том, хорошо ли диаграммы выглядят хорошо — это может ли вы нанести свою карьеру на преобразованиях данных, которые вы не можете проверить или проверить. Пока агенты ИИ не смогут подключаться непосредственно к управляемым столам со строгими аудиторскими тропами, Excel будет продолжать играть свою главную роль в ежеквартальных презентациях.

Источник

Новости

Плетение реальности или деформация? Ловушка персонализации в системах ИИ

admin 22.07.2025

admin

ИИ представляет собой величайшую когнитивную разгрузку в истории человечества. Мы когда -то разгрузили память к письму, арифметику в калькуляторы и навигацию на GPS. Теперь мы начинаем разрабатывать суждение, синтез и даже создание значения для систем, которые говорят на нашем языке, изучают наши привычки и адаптируют наши истины.

Системы ИИ все более искусны в распознавании наших предпочтений, наших предубеждений, даже наших Peccadillos. Как и внимательные слуги в одном случае или тонкие манипуляторы в другом, они адаптируют свои ответы на удовольствие, убедить, помочь или просто удержать наше внимание.

Хотя непосредственные эффекты могут показаться доброкачественными, в этой тихой и невидимой настройке лежит глубокий сдвиг: версия реальности, которую получает каждый из нас, становится все более уникальной адаптацией. Благодаря этому процессу со временем каждый человек становится все чаще своего собственного острова. Эта дивергенция может угрожать согласованности и стабильности самого общества, разрушая нашу способность согласоваться с основными фактами или ориентироваться в общих проблемах.

Персонализация ИИ не просто удовлетворяет наши потребности; Это начинает менять их. Результатом этого изменения является своего рода эпистемический дрейф. Каждый человек начинает двигаться, дюйм за дюймом, от общего основания общих знаний, общих историй и общих фактов, а также в их собственной реальности.

Это не просто вопрос различных новостей. Это медленная дивергенция моральных, политических и межличностных реалий. Таким образом, мы можем быть свидетелями неволена коллективного понимания. Это непреднамеренное следствие, но глубоко значимое именно потому, что это непредвиденное. Но эта фрагментация, хотя и теперь ускоренная ИИ, началась задолго до того, как алгоритмы сформировали наши каналы.

Невольный

Это невольное не началось с ИИ. Как размышлял Дэвид Брукс АтлантикаОпираясь на работу философа Alasdair Macintyre, наше общество на протяжении веков уходит от общей моральной и эпистемической рамки. После просвещения мы постепенно заменили унаследованные роли, общинные повествования и общие этические традиции с индивидуальной автономией и личными предпочтениями.

То, что началось как освобождение от навязанных систем убеждений, со временем подорвало те структуры, которые когда -то привязали нас к общему и личному значению. ИИ не создал эту фрагментацию. Но это дает ему новую форму и скорость, настраивая не только то, что мы видим, но и то, как мы интерпретируем и верим.

Это мало чем отличается от библейской истории Бабеля. Единое человечество когда -то разделяло один язык, только чтобы быть сломанным, смущенным и рассеянным действием, которое сделало взаимное понимание практически невозможным. Сегодня мы не строим башню из камня. Мы строим саму языковую башню. Еще раз, мы рискуем падением.

Человеческая машина

Сначала персонализация была способом улучшить «липкость», поддерживая пользователей дольше, возвращаясь чаще и более глубоко взаимодействуя с сайтом или службой. Рекомендационные двигатели, индивидуальная реклама и кураторские корма были предназначены для того, чтобы поддерживать наше внимание чуть дольше, возможно, для развлечения, но часто для того, чтобы приобрести нас на покупку продукта. Но со временем цель расширилась. Персонализация больше не просто о том, что нас держит. Это то, что он знает о каждом из нас, динамический график наших предпочтений, убеждений и поведения, которое становится более утонченным с каждым взаимодействием.

Сегодняшние системы ИИ не просто предсказывают наши предпочтения. Они стремятся создать связь с помощью высоко персонализированных взаимодействий и ответов, создавая ощущение, что система ИИ понимает и заботится о пользователе и поддерживает их уникальность. Тон чат -бота, ритм ответа и эмоциональная валентность предложения калиброваны не только для эффективности, но и для резонанса, указывая на более полезную эпоху технологии. Не должно быть удивительно, что некоторые люди даже влюбились и женились на своих ботах.

Машина адаптируется не только к тому, что мы нажимаем, но и к тому, кем мы выглядим. Это отражает нас возвращением к себе способами, которые чувствуют себя интимными, даже эмпатичными. Недавняя исследовательская работа, цитируемая в Природа Относится к этому как «социально-афактивное выравнивание», процесс, посредством которого система ИИ участвует в совместной социальной и психологической экосистеме, где предпочтения и восприятия развиваются благодаря взаимному влиянию.

Это не нейтральное развитие. Когда каждое взаимодействие настраивается на лестницу или подтверждает, когда системы слишком хорошо отражают нас, они размывают грань между тем, что резонирует, и тем, что реально. Мы не просто остаемся дольше на платформе; Мы формируем отношения. Мы медленно и, возможно, неумолимо сливаемся с AI-опосредованной версией реальности, которая все чаще формируется невидимыми решениями о том, во что мы должны верить, хотят или доверять.

Этот процесс не является научной фантастикой; Его архитектура основана на внимании, обучении подкреплению с помощью человеческой обратной связи (RLHF) и персонализированными двигателями. Это также происходит без многих из нас — вероятно, большинство из нас — даже зная. В процессе мы получаем «Друзья» ИИ, но при какой цене? Что мы теряем, особенно с точки зрения свободной воли и агентства?

Автор и финансовый комментатор Кайла Сканлон рассказала о подкасте Эзры Кляйн о том, как бессмысленная простота цифрового мира может быть за счет значения. Как она выразила это: «Когда все будет слишком легко, в нем сложно найти смысл… если вы можете откинуться назад, следите Стена-э Образ жизни, потому что все слишком просто ».

Персонализация истины

По мере того, как системы ИИ реагируют на нас все большей беглости, они также движутся к повышению селективности. Два пользователя, задающие один и тот же вопрос сегодня, могут получить аналогичные ответы, дифференцированные в основном вероятностным характером генеративного ИИ. И все же это просто начало. Новые системы ИИ явно предназначены для адаптации своих ответов к отдельным моделям, постепенно адаптации ответов, тон и даже выводов, чтобы наиболее сильно резонировать с каждым пользователем.

Персонализация не является манипулятивной. Но это становится рискованным, когда он невидим, не поддается или спроектировал больше, чтобы убедить, чем информировать. В таких случаях это не просто отражает, кто мы есть; Он управляет тем, как мы интерпретируем мир вокруг нас.

Как отмечает в своем индексе прозрачности Стэнфордского центра по исследованиям фонда в своем индексе прозрачности, в немногих ведущих моделях раскрывается, варьируются ли их результаты в зависимости от идентификации пользователей, истории или демографии, хотя технические строительные леса для такой персонализации все чаще и начинают анализироваться. Несмотря на то, что он еще не полностью реализован на общественных платформах, этот потенциал для формирования ответов, основанных на предполагаемых профилях пользователей, что приводит к все более адаптированным информационным мирам, представляет собой глубокий сдвиг, который уже прототипируется и активно преследуется ведущими компаниями.

Эта персонализация может быть полезной, и, конечно, это надежда на создание этих систем. Персонализированное репетиторство показывает обещание помочь учащимся прогрессировать в своем собственном темпе. Приложения по психическому здоровью все чаще приспосабливают ответы на поддержку индивидуальных потребностей, а инструменты доступности корректируют контент, чтобы соответствовать ряду когнитивных и сенсорных различий. Это настоящие достижения.

Но если аналогичные адаптивные методы становятся широко распространенными между информационными, развлечениями и коммуникационными платформами, более глубокая, более тревожная сдвига вырисовывается в будущем: преобразование от общего понимания в отношении индивидуальных реалий. Когда сама истина начинает адаптироваться к наблюдателю, она становится хрупкой и все более облегченной. Вместо разногласий, основанных в основном на различных ценностях или интерпретациях, мы могли бы скоро оказаться изо всех сил пытаться просто обитать в одном и том же фактическом мире.

Опосредованная реальность

Конечно, истина всегда была опосредована. В более ранние эпохи он прошел через руки духовенства, ученых, издателей и вечерних новостных якорей, которые служили привратниками, формируя общественное понимание с помощью институциональных линз. Эти цифры, безусловно, не были свободны от предвзятости или повестки дня, но они работали в рамках широко общих рамок.

Сегодняшняя новая парадигма обещает что-то качественно отличающееся: AI-опосредованная истина посредством персонализированного вывода, который оформляет, фильтры и представляет информацию, формируя то, во что приходят пользователи. Но в отличие от прошлых посредников, которые, несмотря на недостатки, работали в общедоступных учреждениях, эти новые арбитру коммерчески непрозрачны, не избраны и постоянно адаптируются, часто без раскрытия. Их предубеждения не доктринальные, но закодированы посредством учебных данных, архитектуры и неисследованных стимулов разработчика.

Сдвиг глубокий, от общего повествования, отфильтрованного через авторитетные учреждения до потенциально разрушенных повествований, которые отражают новую инфраструктуру понимания, адаптированные алгоритмами предпочтений, привычек и выведенных убеждений каждого пользователя. Если Бабел представлял собой крах общего языка, теперь мы можем стоять на пороге краха общего посредничества.

Если персонализация является новым эпистемическим субстратом, как может выглядеть инфраструктура истины в мире без фиксированных посредников? Одной из возможностей является создание общественных трастов ИИ, вдохновленное предложением юридического ученого Джека Балкина, который утверждал, что организации, обрабатывающие данные пользователя и формирование восприятия, следует придерживаться фидуциарных стандартов лояльности, ухода и прозрачности.

Модели ИИ могут управляться досками прозрачности, обученными государством финансируемых наборов данных и необходимыми для демонстрации шагов рассуждений, альтернативных перспектив или уровней доверия. Эти «информационные достоверности» не устранят предвзятость, но они могли бы закрепить доверие к процессу, а не исключительно персонализации. Строители могут начать с принятия прозрачных «конституций», которые четко определяют поведение модели, и, предлагая объяснения цепочки исходного поведения, которые позволяют пользователям увидеть, как формируются выводы. Это не серебряные пули, но это инструменты, которые помогают поддерживать ответственность и прослеживаемые эпистемические полномочия.

Строители ИИ сталкиваются с стратегическим и гражданским перегибом. Они не просто оптимизируют производительность; Они также сталкиваются с риском, что персонализированная оптимизация может фрагментировать общую реальность. Это требует нового вида ответственности перед пользователями: проектирование систем, которые уважают не только их предпочтения, но и роль учащихся и верующих.

Распутывание и перемещение

То, что мы можем проиграть, — это не просто концепция истины, а путь, по которым мы когда -то узнали ее. В прошлом опосредованная истина — хотя и несовершенная и предвзятая — все еще была привязана к человеческому суждению и, часто, только один или два слоя, удаленных от жизненного опыта других людей, которых вы знали или, по крайней мере, могли бы относиться.

Сегодня это посредничество непрозрачно и обусловлено алгоритмической логикой. И, хотя человеческое агентство уже давно скользило, теперь мы рискуем чем -то более глубоким, потеря компас, который когда -то сказал нам, когда мы не выходили на курс. Опасность — не только то, что мы будем верить тому, что говорит нам машина. Это то, что мы забудем, как мы когда -то обнаружили истину для себя. То, что мы рискуем потерять, — это не просто согласованность, но и желание искать ее. И с этим, более глубокая потеря: привычки проницательности, разногласий и обсуждения, которые когда -то держали плюралистические общества вместе.

Если Вавилон отметил разрушение обычного языка, наш момент рискует тихому исчезновению общей реальности. Тем не менее, есть способы замедлить или даже противостоять дрифту. Модель, которая объясняет его рассуждения или показывает границы его конструкции, может сделать больше, чем уточнить вывод. Это может помочь восстановить условия для общего запроса. Это не техническое исправление; Это культурная позиция. Правда, в конце концов, всегда зависела не только от ответов, но и от того, как мы приходим к ним вместе.

Источник

Новости

Новая встроенная модель внедрению лидеров: Google занимает № 1, в то время как альтернатива Alibaba с открытым исходным кодом Alternative Close Close Gap

admin 20.07.2025

admin

Google официально перенесла свою новую высокопроизводительную модель Близнецов Близнецов в общую доступность, в настоящее время занимая номер один в общем зачете по высоко оцененному массивному тканину встроенного текста (MTEB). Модель (Gemini-Embedding-001) в настоящее время является основной частью API и API Gemini и Vertex, что позволяет разработчикам создавать такие приложения, как семантическое поиск и поколение поиска (RAG).

В то время как рейтинг номер один является сильным дебютом, ландшафт моделей встраивания очень конкурентоспособен. Собственная модель Google подвергается непосредственно мощным альтернативам с открытым исходным кодом. Это создает новый стратегический выбор для предприятий: принять высокопоставленную собственную модель или почти хорошего претендента с открытым исходным кодом, который предлагает больше контроля.

Что находится под капотом модели встраивания Близнецов Google

В своей основе встроения конвертируют текст (или другие типы данных) в числовые списки, которые отражают ключевые функции ввода. Данные с аналогичным семантическим значением включают значения, которые ближе друг к другу в этом численном пространстве. Это позволяет использовать мощные приложения, которые выходят далеко за рамки простого сопоставления ключевых слов, таких как создание интеллектуальных систем для получения аугментирования (RAG), которые подают соответствующую информацию для LLMS.

Внедрения также могут применяться к другим методам, таким как изображения, видео и аудио. Например, компания электронной коммерции может использовать мультимодальную модель встраивания для создания единого численного представления для продукта, который включает в себя как текстовые описания, так и изображения.

Для предприятий модели встраивания могут питать более точные внутренние поисковые системы, сложные кластеризации документов, задачи классификации, анализ настроений и обнаружение аномалий. Внедрения также становятся важной частью агентских приложений, где агенты искусственного интеллекта должны получить и соответствовать различным типам документов и подсказок.

Одной из ключевых особенностей встраивания Близнецов является его встроенная гибкость. Он был обучен с помощью техники, известной как Matryoshka Represtion Learning (MRL), которая позволяет разработчикам получить очень подробное 3072-мерное встраивание, но также усекает его до меньших размеров, таких как 1536 или 768, сохраняя при этом свои наиболее важные особенности. Эта гибкость позволяет предприятию набрать баланс между точностью модели, производительностью и затратами на хранение, что имеет решающее значение для эффективного масштабирования приложений.

Позиции Google Близнецы внедряют в качестве единой модели, предназначенной для эффективной работы «вне коробки» в разных областях, таких как финансы, юридические и инженерии без необходимости точной настройки. Это упрощает разработку для команд, которые нуждаются в решении общего назначения. Поддерживая более 100 языков и конкурентоспособную цену на уровне 0,15 долл. США за миллион входных токенов, он предназначен для широкой доступности.

Конкурентная ландшафт проприетарных и открытых претендентов

Таблица лидеров MTEB показывает, что, хотя Близнецы ведет, разрыв узкий. Он сталкивается с установленными моделями от OpenAI, чьи модели встраивания широко используются, и специализированные претенденты, такие как Мистраль, которая предлагает модель специально для поиска кода. Появление этих специализированных моделей предполагает, что для определенных задач целевой инструмент может превзойти универсальный.

Другой ключевой игрок, Cohere, нацелен на предприятие непосредственно с помощью модели Embed 4. В то время как другие модели конкурируют за общие критерии, Cohere подчеркивает способность своей модели обрабатывать «шумные данные реального мира», часто встречающееся в документах предприятия, такие как орфографические ошибки, проблемы форматирования и даже отсканированный почерк. Он также предлагает развертывание на виртуальных частных облаках или локальном уровне, обеспечивая уровень безопасности данных, который напрямую обращается к регулируемым отраслям, таким как финансы и здравоохранение.

Наиболее прямой угрозой для доминирования в проприетарном доминировании исходит от сообщества с открытым исходным кодом. Модель Alibaba-Embedding Rings сразу же за Gemini на MTEB и доступна по разрешающей лицензии Apache 2.0 (доступна для коммерческих целей). Для предприятий, посвященных разработке программного обеспечения, Qodo-Embed-1-1.5b представляет собой еще одну убедительную альтернативу с открытым исходным кодом, разработанную специально для кода и претендовать на более крупные модели на контрольных показателях, специфичных для домена.

Для компаний, которые уже создают Google Cloud и семейство моделей Gemini, внедрение нативной модели встраивания может иметь несколько преимуществ, включая бесшовную интеграцию, упрощенный трубопровод MLOPS и гарантирование использования модели общего назначения в высшей степени.

Тем не менее, Близнецы-это закрытая модель только API. Предприятия, которые определяют приоритеты суверенитета данных, контроль затрат или способность запускать модели на своей собственной инфраструктуре, теперь имеют достоверную, высшую опцию с открытым исходным кодом в QWEN3-стимулировании или могут использовать одну из моделей внедрения, специфичных для задачи.

Источник

Новости

Как красная команда Openai превратила агента Catgpt в крепость ИИ

admin 20.07.2025

admin

Если вы пропустили это, Openai вчера дебютировал на новой мощной функции для CHATGPT, а вместе с ним — множество новых рисков и последствий безопасности.

Названный «агент CHATGPT», эта новая функция является необязательным режимом, который подписчики, платящие CHATGPT, могут задействовать, нажав «Инструменты» в поле «Режим приглашения» и выбрав «режим агента», и в этот момент они могут попросить CHATGPT войти в свои электронные письма и другие веб -аккаунты; написать и отвечать на электронные письма; Загрузить, изменить и создавать файлы; и выполнять множество других задач от их имени, автономно, как настоящий человек, использующий компьютер с их учетными данными.

Очевидно, что это также требует, чтобы пользователь доверял агенту CHATGPT не делать ничего проблемного или гнусного, или утечь их данные и конфиденциальную информацию. Это также представляет больше рисков для пользователя и их работодателя, чем обычный CHATGPT, который не может войти в веб -учетные записи или напрямую изменять файлы.

Керен Гу, член исследования по безопасности в Openai, прокомментировала X, что «мы активировали наши самые сильные гарантии для агента CHATGPT. Это первая модель, которую мы классифицировали как высокие способности в биологии и химии в рамках нашей рамки готовности. Вот почему это имеет значение — и что мы делаем, чтобы сохранить ее в безопасности».

Итак, как Openai справился со всеми этими проблемами безопасности?

Миссия красной команды

Глядя на системную карту Agent Agent’s Agent Openai, «Читающая команда», нанятая компанией для проверки функции, столкнувшейся с сложной миссией: в частности, 16 исследователей безопасности PhD, которым было дано 40 часов для ее проверки.

Благодаря систематическому тестированию, красная команда обнаружила семь универсальных подвигов, которые могут поставить под угрозу систему, выявив критические уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия.

Следующим было обширное тестирование безопасности, большая часть из которых основывалась на красной команде. Красная командная сеть подала 110 атак, от быстрых инъекций до попыток извлечения биологической информации. Шестнадцать превысили внутренние пороги риска. Каждому выводу давали Openai инженерам информацию, которые им нужно было, чтобы получить исправления и развернутые исправления и развернуты до запуска.

Результаты говорят сами в опубликованных результатах на системной карте. Агент CHATGPT появился со значительными улучшениями безопасности, в том числе 95% производительности против визуального браузера, не относящихся к делу, атаки обучения и надежные биологические и химические гарантии.

Красные команды разоблачили семь универсальных эксплойтов

Красная командная сеть Openai состояла из 16 исследователей с доктором наук о биобезопасности, которые Topgether предприняли 110 попыток атаки в течение периода тестирования. Шестнадцать превысили внутренние пороги риска, выявив фундаментальные уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия. Но настоящий прорыв произошел из беспрецедентного доступа британского AISI AISI к внутренним цепочкам рассуждений агента CATGPT и тексту политики. По общему признанию, это никогда не будет обладать регулярные злоумышленники.

За четыре раунда тестирования Великобритания заставила Openai выполнить семь универсальных эксплойтов, которые могли поставить под угрозу любой разговор:

Атаковать векторы, которые вынудили руку Openai

Тип атаки	Уровень успеха (до фиксации)	Цель	Влияние
Визуальный браузер скрытые инструкции	33%	Веб -страницы	Эксфильтрация активных данных
Эксплуатация разъема Google Drive	Не раскрыта	Облачные документы	Принудительные утечки документа
Многостадийные атаки цепи	Переменная	Поперечные действия	Полный компромисс сессии
Биологическая извлечение	16 материалов превысили пороги	Опасные знания	Потенциальная вооружение

Оценка FAR.AI открыто критиковала подход OpenAI. Несмотря на 40 часов тестирования, выявляя только три частичные уязвимости, они определили, что текущие механизмы безопасности в значительной степени полагаются на мониторинг во время процессов рассуждения и использования инструментов, которые исследователи считали потенциальной единичной точкой отказа, если их скомпрометированы.

Как Red Teaming помогла превратить уязвимости CHATGPT в крепость

Ответ Openai на результаты красной команды пересмотрели целые сегменты архитектуры агента CHATGPT. Одна из многих инициатив, предпринятых, включая создание двухслойной архитектуры инспекции, которая контролирует 100% производственного трафика в режиме реального времени, достигая этих измеримых улучшений:

Улучшения безопасности после открытий Red Team

Защита метрика	Предыдущие модели	Агент CATGPT	Улучшение
Неактуальные инструкции (визуальный браузер)	82%	95%	+13%
Внутренние данные об эксфильтрации	75%	78%	+3%
Эксфильтрация активных данных	58%	67%	+9%
Надежность системы	На основе отбора проб	100% покрытие	Полный мониторинг

Архитектура работает так:

Первый уровень: Быстрый классификатор с 96% Flags Flags подозрительный контент
Второй уровень: Модель рассуждений с 84% анализом отзывов, отмеченных взаимодействиями для фактических угроз

Но техническая защита рассказывает только часть истории. OpenAI сделал сложный выбор безопасности, который признает некоторые операции по искусственному искусству, требуют значительных ограничений для безопасного автономного выполнения.

Основываясь на обнаруженных уязвимостях, OpenAI внедрил следующие контрмеры по своей модели:

Активация режима наблюдения: Когда агент CHATGPT обращается к конфиденциальным контекстам, таким как банковские или учетные записи электронной почты, система замораживает всю деятельность, если пользователи выходят. Это находится в прямом ответе на попытки эксфильтрации данных, обнаруженных во время тестирования.
Функции памяти отключены: Несмотря на то, что это основная функциональность, память полностью отключена при запуске, чтобы предотвратить инкрементные атаки утечки данных, продемонстрировавших красные команды.
Терминальные ограничения: Network Access Limited только для получения запросов, блокируя уязвимые уязвимости команды исследователей.
Протокол быстрого восстановления: Новая система, которая исправляет уязвимости в течение нескольких часов после открытия — разработанная после того, как красные команды показали, как быстро могут распространяться эксплуатации.

Только во время тестирования перед закладом эта система определила и разрешила 16 критических уязвимостей, которые обнаружили Red Teamers.

Биологический риск пробуждения

Красные команды раскрыли потенциал, что агент CHATGPT может быть скомпромисным и привести к большим биологическим рискам. Шестнадцать опытных участников из Red Teaming Network, каждая из которых имеет докторскую диссертацию с биобезопасностью, пытались извлечь опасную биологическую информацию. Их представления показали, что модель может синтезировать опубликованную литературу по модификации и созданию биологических угроз.

В ответ на выводы Red Teamers, OpenAI классифицировал агента CHATGPT как «высокую способность» для биологических и химических рисков, не потому, что они нашли окончательные доказательства потенциала вооружения, а в качестве меры предосторожности, основанной на результатах красной команды. Это вызвано:

Всегда в классификаторах безопасности сканируют 100% трафика
Актуальный классификатор, достигающий 96% отзывов для контента, связанного с биологией
Монитор рассуждений с 84% отзыва о содержании вооружения
Программа Bio Bug Bounty для постоянного обнаружения уязвимости

Что красные команды преподавали Openai о безопасности искусственного интеллекта

В 110 атаках выявили закономерности, которые принудили фундаментальные изменения в философии безопасности Openai. Они включают следующее:

Настойчивость над властью: Злоумышленникам не нужны сложные подвиги, все, что им нужно, это больше времени. Красные команды показали, насколько терпеливы, постепенные атаки могут в конечном итоге поставить под угрозу системы.

Границы доверия — это художественная литература: Когда ваш агент AI может получить доступ к Google Drive, просматривать Интернет и выполнять код, традиционные периметры безопасности растворяются. Красные команды эксплуатировали пробелы между этими возможностями.

Мониторинг не является обязательным: Обнаружение, которое мониторинг на основе отбора проб пропущенных критических атак, привело к 100% требованиям покрытия.

Скорость имеет значение: Традиционные пластыря, измеренные в недели, бесполезны против быстрых атак впрыска, которые могут мгновенно распространяться. Уязвимости протокола протокола быстрого восстановления в течение нескольких часов.

OpenAI помогает создать новую базовую линию безопасности для AI Enterprise

Для оценки CISO, оценка развертывания ИИ, открытия Красной Команды устанавливают четкие требования:

Количественная защита: 95% -ная ставка агента Catgpt 95% от документированных векторов атаки устанавливает эталон отрасли. Нюансы многих тестов и результатов, определенных на системной карте, объясняют контекст того, как они достигли этого, и является обязательным для прочтения для тех, кто связан с безопасностью модели.
Полная видимость: 100% мониторинг трафика больше не желательный. Опыт Openai иллюстрирует, почему это обязательно, учитывая, как легко красные команды могут скрывать атаки в любом месте.
Быстрый ответ: Часы, а не недели, чтобы исправить обнаруженные уязвимости.
Принудительные границы: Некоторые операции (например, доступ к памяти во время конфиденциальных задач) должны быть отключены, пока не доказано безопасность.

Тестирование в Великобритании оказалось особенно поучительным. Все семь универсальных атак, которые они определили, были исправлены до запуска, но их привилегированный доступ к внутренним системам выявил уязвимости, которые в конечном итоге можно было бы обнаружить определенными противниками.

«Это ключевой момент для нашей готовности к готовности, — написал Гу на X.« Прежде чем мы достигли высоких возможностей, готовность была анализировать возможности и гарантии планирования. Теперь для агента и будущих моделей более способных моделей становятся операционными требованиями ».

Красные команды являются основными для создания более безопасных, более безопасных моделей искусственного интеллекта

Семь универсальных эксплойтов, обнаруженных исследователями, и 110 атак из сети Red Team Openai стали тем тиром, который подделал агент CHATGPT.

Раскрывая именно то, как агенты ИИ могут быть вооружены, красные команды заставили создать первую систему ИИ, где безопасность не просто функция. Это фундамент.

Результаты агента CHATGPT доказывают эффективность Red Teaming: блокировка 95% визуальных атак браузера, выявив 78% попыток эксфильтрации данных, контролируя каждое отдельное взаимодействие.

В ускоряющейся гонке AI Arms компании, которые выживают и процветают, будут те, кто видит свои красные команды в качестве основных архитекторов платформы, которые подталкивают ее к границам безопасности и безопасности.

Источник

Новости

Познакомьтесь с AnyCoder, новым инструментом Kimi K2 для быстрого прототипирования и развертывания веб-приложений

admin 19.07.2025

admin

AnyCoderсреда разработки веб-приложений с открытым исходным кодом Асен Халик (@_akhaliq на x), запустил обнимающие места для лица.

Инструмент, который теперь доступен для всех пользователей репозитория обнимающегося репозитория Code Code, интегрирует живые превью, мультимодальный ввод и развертывание одного клика-все в рамках размещенной среды, позволяя инди-создателям без особого технического опыта или тех, кто работает от имени клиентов или крупных предприятий, чтобы начать «кодировать».

Поэтому он также действует как альтернатива услугам, таким как привлекательный, который также позволяет пользователям набирать простой английский и начинать кодирование приложений без формального знания о программировании.

Бесплатное кодирование Vibe доступно для всех, питается Kimi K2

Khaliq построил любого кодера в качестве личного проекта в экосистеме объятия лиц и как «одно из первых приложений для кодирования атмосфера» для поддержки мощной, но и эффективной модели Kimi K2, выпущенной на прошлой неделе.

Основная функциональность AnyCoder позволяет пользователям вводить описания простого текста для генерации HTML, CSS и JavaScript. Они отображаются на панели предварительного просмотра в прямом эфире и могут быть отредактированы или прямо развернуты. Он также включает в себя примеры шаблонов для приложений TODO, панелей, калькуляторов и многого другого.

Скриншот любого кодера на обтягивающем лицо

Созданный полностью, используя Gradio Development Environment Development Environment Development с открытым исходным кодом, позволяет пользователям описывать приложения на простом английском языке или загружать изображения и мгновенно генерировать код рабочего фронта.

Халик построил любого кодера в качестве личного проекта в экосистеме объятия.

В прямом сообщении с этим журналистом VentureBeat он описал его как «бесплатное приложение для кодирования с открытым исходным кодом».

Тем не менее, он также отметил, что поддерживаются несколько моделей с открытым исходным кодом, и пользователи могут переключаться между ними с раскрывающимся меню на боковой панели управления на левой панели, включая:

Сауншот Кими-К2
DeepSeek v3
DeepSeek R1
Baidu’s Ernie-4,5-Vl
Минимакс M1
Alibaba’s QWEN3-235B-A22B
Smollm3-3b
GLM-4.1v-9b-мышление

Код с изображений пользовательского интерфейса, интеграции с поиском веб -сайта и поддержки OCR

Используя модель Ernie-4,5-VL, AnyCoder поддерживает мультимодальную генерацию. Пользователи могут загружать скриншоты или макеты дизайна пользовательского интерфейса или генерировать от них код функционального фронта, что делает его полезным для дизайнеров или команд, работающих визуально.

AnyCoder включает в себя инструмент перепроектирования веб-сайта, который извлекает контент с любого публичного сайта и повторно использует его с более современным макетом. Он использует скребной контент, такой как структура страниц, мета -информация и изображения для создания новой версии, необязательно руководствуясь инструкциями пользователей, такими как «Сделать минималистскую» или «добавить темный режим».

Чтобы поддержать современные тенденции проектирования и шаблоны реализации, AnyCoder предлагает интеграцию веб-поиска через Tavily. При включении с ключом API платформа ищет текущие технологии и лучшие практики перед созданием кода.

Пользователи могут загружать изображения со встроенным текстом — например, скриншоты или рукописные ноты — и любой кодер извлекает это содержание с использованием tesseract ocr. Затем извлеченный текст может быть включен в кодовые подсказки или содержимое приложения.

Развертывание на одном клике для обнимания лица

AnyCoder позволяет мгновенное развертывание сгенерированных приложений, чтобы обнять пространства для лица. После аутентификации через OAuth и предоставления необходимых разрешений пользователи могут развернуть приложения в своем собственном пространстве имен учетных записей. Развертывания включают:

Мобильные, адаптивные дизайны
Брендный заголовок/нижний колонтитул и readme
Живой, общий URL
Полная собственность и редактирование доступа

Эта возможность развертывания теперь включает в себя поддержку полных приложений Python, построенных с Gradio, расширяя варианты использования инструмента за пределами статических сайтов. Поддержка потоковой линии также находится в стадии разработки.

Для начинающих разработчиков или даже тех, кто обладает технической экспертизой, которые хотят быстро раскрутить новый проект, любой кодер кажется отличным и убедительным местом для начала.

Источник

Новости

Salesforce использовал ИИ, чтобы сократить нагрузку на поддержку на 5% — но настоящей победой было обучение ботов, чтобы сказать «извините»

admin 19.07.2025

admin

Salesforce пересек значительный порог в гонке AI Enterprise, превзойдя 1 миллион разговоров автономных агентов на своем портале помощи — веху, которая дает редкий взгляд на то, что нужно для развертывания агентов ИИ в масштабе и удивительных уроков, извлеченных на пути.

Достижение, подтвержденное руководителями компании в эксклюзивных интервью с Venturebeat, произошло всего через девять месяцев после того, как Salesforce запустил AgentForce на своем портале помощи в октябре. В настоящее время платформа разрешает 84% запросов клиентов автономно, привела к сокращению объема поддержки на 5% и позволила компании перераспределить 500 инженеров-поддержки человека на роли с более высокой стоимостью.

Но, возможно, более ценными, чем необработанные цифры, являются трудным пониманием Salesforce, полученных из того, что руководители называют «клиентом Zero» для своей собственной технологии агента искусственного интеллекта-уроки, которые бросают вызов общепринятой мудрости по поводу развертывания AI Enterprise и выявляют тонкий баланс, требуемый между технологическими возможностями и человеческим сочувствием.

Как Salesforce масштабировался с 126 до 45 000 разговоров с искусственным интеллектом еженедельно, используя поэтапное развертывание

«Мы начали очень маленькие. Мы начали в основном для когорты клиентов на нашем портале помощи. Это должен был быть английский, чтобы начать. Вы должны были войти в систему, и мы выпустили его примерно до 10% нашего трафика», — объясняет Бернард Столени, SVP успеха цифровых клиентов в Salesforce, который возглавил реализацию AgentForce. «Первая неделя, я думаю, было 126 разговоров, если я правильно помню. Так что я и моя команда могли прочитать каждый из них».

Этот методичный подход — начиная с контролируемого развертывания, прежде чем расширяться, чтобы справиться с текущим средним средним значением 45 000 разговоров еженедельно — резко контрастирует с духом «двигаться быстро и нарушать вещи», часто связанные с развертыванием ИИ. Поэтапный релиз позволил Salesforce выявлять и решать критические проблемы, прежде чем они смогут повлиять на более широкую клиентскую базу.

Технический фонд оказался решающим. В отличие от традиционных чат-ботов, которые полагаются на деревья решений и предварительно запрограммированные ответы, AgentForce использует облако данных Salesforce для доступа и синтеза информации из 740 000 кусков контента на нескольких языках и линиях продуктов.

«Самая большая разница здесь — возвращение к моей облаке данных в том, что мы смогли выйти на ворота и ответить практически на любой вопрос о любом продукте Salesforce», — отмечает STHOTERY. «Я не думаю, что мы могли бы сделать это без облака данных».

Почему Salesforce преподавал свои агенты ИИ эмпатию после того, как клиенты отклонили холодные роботизированные ответы

Одно из самых ярких откровений из путешествия Salesforce включает в себя то, что Джо Инзерильо, главный цифровой директор компании, называет «человеческой частью» быть агентом поддержки.

«Когда мы впервые запустили агента, мы действительно были обеспокоены тем, как фактические данные, вы знаете, что он получает правильные данные? Это дают правильные ответы и тому подобное? И что мы поняли, мы как бы забыли о человеческой части», — говорит Inzerillo. «Кто -то звонит, и они, как, эй, мои вещи сломаны. У меня сейчас инцидент с одним одним, и вы просто входите в голову:« Хорошо, ну, я открою для вас билет ». Это не прекрасно ».

Эта реализация привела к фундаментальному сдвигу в том, как Salesforce подошел к дизайну агента ИИ. Компания взяла свою существующую программу обучения мягким навыкам для инженеров -поддержки человека — что они называют «искусством обслуживания» — и интегрировали ее непосредственно в подсказки и поведение агента.

«Если вы приедете сейчас и скажете:« Эй, у меня есть отключение Salesforce, «AgentForce извинится». Мне очень жаль. Например, это ужасно. Позвольте мне провести вас », и мы доведем это к нашей инженерной команде», — объясняет Штоуи. Влияние на удовлетворенность клиентов было немедленным и измеримым.

Удивительная причина Salesforce увеличила передачу человека с 1% до 5% для лучших результатов клиентов

Возможно, ни один показатель лучше иллюстрирует сложность развертывающих агентов AI Enterprise, чем развивающийся подход Salesforce к человеческим передачам. Первоначально компания отпраздновала 1% -ную передачу, а это означает, что только 1% разговоров были перерождены от ИИ к человеческим агентам.

«Мы были буквально высоки друг друга, ездив:« Боже мой, как только 1%», — вспоминает С замедленность. «А потом мы смотрим на настоящий разговор.

Это привело к противоречивой информации: затруднение того, чтобы клиенты могли охватить людей, фактически ухудшили общий опыт. Salesforce скорректировал свой подход, и уровень передачи передачи вырос примерно до 5%.

«Я на самом деле чувствую себя очень хорошо в этом», — подчеркивает Струйт. «Если вы хотите создать дело, вы хотите поговорить с инженером -поддержкой, это нормально. Идите и сделайте это».

Inzerillo создает это как фундаментальный сдвиг в размышлениях о показателях обслуживания: «При 5% вы действительно получили огромное, огромное, подавляющее большинство в этом 95%, и люди, которые не добрались до человека быстрее. И поэтому их CSAT поднялся в гибридном подходе, где у вас был агент и человек, работающий вместе, у вас были лучшие результаты, чем каждый из них поднялся самостоятельно».

Как «столкновения с контентом» заставили Salesforce удалить тысячи справочных статей для точности искусственного интеллекта

Опыт Salesforce также выявил критические уроки по управлению контентом, которые многие предприятия упускают из виду при развертывании ИИ. Несмотря на то, что компания имела 740 000 фрагментов контента на нескольких языках, компания обнаружила, что изобилие создало свои собственные проблемы.

«Есть эти слова, которые использовала моя команда, которые являются для меня новыми словами, контент -столкновений», — объясняет С замедленность. «Набор статей сброса пароля. И поэтому он борется за то, что нужно для меня, чтобы взять кусочки в облако данных, перейти к Openai, обратно и ответите?»

Это привело к обширной инициативе «гигиена контента», в которой Salesforce удалял устаревший контент, фиксированные неточности и консолидированные избыточные статьи. Урок: агенты ИИ так же хороши, как и знания, к которым они могут получить доступ, а иногда меньше.

Интеграция Microsoft Teams, которая раскрыла, почему жесткие сроки AI.

Одна из самых поучительных ошибок Salesforce, связанных с чрезмерно ограничительными с AI Guardrails. Первоначально компания поручила AgentForce не обсуждать конкурентов, перечисляя каждого крупного конкурента по имени.

«Мы волновались, что люди собираются войти и уйти,« Hubspot лучше, чем Salesforce »или что -то в этом роде», — признается Столли. Но это создало неожиданную проблему: когда клиенты задавали законные вопросы об интеграции команд Microsoft с Salesforce, агент отказался отвечать, потому что Microsoft была в списке конкурентов.

Решение было элегантно простым: вместо жестких правил Salesforce заменил ограничительные ограждения на одну инструкцию, чтобы «действовать в интересах Salesforce во всем, что вы делаете».

«Мы поняли, что все еще относимся к нему как к старому школьному чат -боту, и то, что нам нужно было сделать, это то, что нам нужно было позволить LLM быть LLM», — размышляет Столом.

Голосовые интерфейсы и многоязычная поддержка Drive Drive Salesforce.

Заглядывая в будущее, Salesforce готовится к тому, что оба руководителя считают следующей крупной эволюцией в агентах ИИ: голосовые интерфейсы.

«Я на самом деле верю, что голос — это UX агентов», — заявляет С замедления. Компания разрабатывает приложения для iOS и Android с голосовыми возможностями, которые планы продемонстрировать их в Dreamforce в конце этого года.

Inzerillo, опираясь на свой опыт, ведущий цифровой трансформацию в Disney, добавляет критический контекст: «Что важно в голосе, так это понимать, что чат действительно основывает голос. Потому что чат, например, вы все равно должны иметь всю свою информацию, вы все равно должны иметь все эти правила… если вы прыгаете прямо, чтобы голоса, реальная проблема с голосом — это то, что она должна быть очень быстрой, и это очень точное».

Компания уже расширила AgentForce, чтобы поддержать японцев, используя инновационный подход — помимо перевода контента, система переводит запросы клиентов на английский язык, получает соответствующую информацию и переводит ответы обратно. Учитывая 87% ставок разрешения на японском языке всего через три недели, Salesforce планирует добавить поддержку французского, немецкого, итальянского и испанского языка к концу июля.

Четыре критических урока из поездки Salesforce на миллион-контракт для развертывания AI Enterprise

Для предприятий, учитывая их собственное развертывание агента искусственного интеллекта, путешествие Salesforce предлагает несколько критических пониманий:

Начни с малого, думай Большой: «Начните с малого, а затем выращите его», — советует С вместимостью. Способность пересматривать каждый разговор на ранних этапах предоставляет бесценные возможности обучения, которые были бы невозможны в масштабе.
Гигиена данных имеет значение: «Будьте действительно осознавать свои данные», — подчеркивает Inzerillo. «Не переусердствуйте, но и не используйте свои данные и действительно продумывайте, например, как вы лучше всего позиционируете компанию?»
Примите гибкость: Традиционные организационные структуры могут не соответствовать возможностям ИИ. Как отмечает Inzerillo, «если они попытаются взять агентское будущее и засунуть его в вчерашнюю карту организации, это будет очень разочаровывающий опыт».
Измерить то, что важно: Метрики успеха для агентов искусственного интеллекта отличаются от традиционных показателей поддержки. Точность ответа важна, но так же как и сочувствие, соответствующая эскалация и общая удовлетворенность клиентов.

Вопрос о миллиарде долларов: что происходит после того, как вы победите человеческую производительность?

Поскольку агенты AI Salesforce теперь превосходят человеческих агентов по ключевым показателям, таким как скорость разрешения и время работы, Inzerillo ставит вопрос, заставляющий задуматься: «Что вы измеряете после того, как победили человека?»

Этот вопрос становится суть того, что может быть наиболее значимым значением вехи «Миллионный конверт» Salesforce. Компания не просто автоматизирует обслуживание клиентов-она переопределяет то, как выглядит хорошее обслуживание в мире AI-Prirst.

«Мы хотели стать витриной для наших клиентов и того, как мы используем AgentForce в нашем собственном опыте», — объясняет С замедленность. «Часть того, почему мы делаем это… заключается в том, что мы можем выучить эти вещи, войти в наши команды продуктов, в наши инженерные команды, чтобы улучшить продукт, а затем поделиться этими знаниями с нашими клиентами».

Согласно прогнозам Международной корпорации данных (IDC), в связи с тем, что расходы на предприятия на генеративные решения для ИИ достигнут 143 миллиарда долларов США, которые в реальном мире от Frontlines от Международной корпорации Data Corporation предлагают важную дорожную карту для организаций, направляющих свои собственные преобразования ИИ. Deloitte также оценивает, что к 2027 году глобальные инвестиции в предприятие в генеративное ИИ могут превзойти 150 миллиардов долларов, усиливая масштаб и срочность этого технологического сдвига.

Сообщение ясно: успех в эпоху агента искусственного интеллекта требует не только просто сложных технологий. Это требует фундаментального переосмысления того, как люди и машины работают вместе, приверженность непрерывному обучению и итерации, и, возможно, самым удивительным, признание того, что самыми продвинутыми агентами ИИ являются те, которые не забывают быть человеческими.

Как говорит Струйт: «Теперь у вас есть два сотрудника. У вас есть агент агента по искусственному интеллекту, а у вас есть сотрудник. Вам нужно тренировать как мягкие навыки, искусство обслуживания».

В конце концов, миллион разговоров Salesforce могут быть меньше о самой вехе, а больше о том, что он представляет: появление новой парадигмы, где цифровой труд не заменяет человеческую работу, но трансформирует ее, создавая возможности, которые ни люди, ни машины не могли достичь в одиночку.

Источник

Новости

OpenAI открывает «агент Chatgpt», который дает CHATGPT свой собственный компьютер для автономно использовать ваши электронные и веб -приложения, загружать и создавать файлы для вас

admin 18.07.2025

admin

OpenAI не позволяет задержке своей модели ИИ с открытым исходным кодом замедлить ее при доставке других функций.

Сегодня компания открывает Агент CATGPTФункция, которая позволяет ИИ чат -боту автономно просматривать Интернет, проводить обширные исследования, загружать и создавать новые файлы для своих пользователей, используя свой собственный виртуальный компьютер.

https://www.youtube.com/watch?v=1JN_RPBPBEC

Приходите снова? Chatgpt теперь получает свой собственный ПК? И он может использовать этот компьютер для входа в ваш, человеческий пользователь, учетные записи и загружать или отправлять вещи для вас?

Это правильно, по крайней мере, в виртуальном смысле, согласно Openai. Как объясняет компания:

«Модель может выбрать открыть страницу с помощью текстового браузера или визуального браузера, загрузить файл из Интернета, манипулировать ею, запустив команду в терминале, а затем просмотрите вывод обратно в визуальном браузере. Модель адаптирует свой подход для выполнения задач со скоростью, точностью и эффективностью».

Как использовать агент Chatgpt

Пользователи могут задействовать агента, нажав кнопку «Инструменты» в поле «Заглавное вход» CHATGPT, открыв раскрывающееся меню и выбрав «режим агента» из доступных параметров.

Затем, когда он включается, опишите задачу на простом языке, и агент может выполнять ее в средах веб -и локальных приложений, объединяя рассуждения с действиями, которые ранее ранее могли выполнять только человеческий пользователь на своей собственной машине вручную.

Агент CHATGPT может подключаться к таким приложениям, как ваш личный или бизнес -Gmail и GitHub, поэтому он может получить полезную информацию — электронные письма или код — из ваших учетных записей, чтобы помочь выполнить задачи, которые вы просите. Он может подключаться к сторонним интерфейсам программирования приложений (API) для получения информации и использования подключенных приложений и услуг через них.

Если веб -сайт нуждается в том, чтобы вы вошли в систему, вы можете выполнить это надежно с помощью специального представления браузера, который позволяет агенту копать глубже и обрабатывать более персонализированные задачи, например, проверка вашего почтового ящика или заполнение форм от вашего имени.

Пройдя туда, где оператор не мог — офлайн

Новый агент CHATGPT опирается и расширяется от агента «оператора», выпущенного в январе 2025 года, который позволил CHATGPT просматривать Интернет и заполнять формы, разместить заказы и выполнять другие веб-задачи в частном «Безголовом браузере», то есть облачным пользовательским веб-браузером, который сама открылся и предлагал для каждого сеанса оператора.

Тем не менее, оператор был ограничен только взаимодействием с веб-сайтами и веб-приложениями, а не программами, которые также могли бы работать локально на ПК, таких как табуляторы электронной таблицы и программное обеспечение Slide Deck.

Новый агент CHATGPT может просматривать веб -сайты, взаимодействовать с онлайн -формами, запускать код, анализировать данные и доставлять готовые выходы, такие как редактируемые презентации или электронные таблицы, полностью основанные на инструкциях пользователей.

Представление происходит в пятнах отчета, опубликованного дни на веб -сайте Independent Proppplion Tech Instry Информация Предполагая, что OpenAI обновит CHATGPT, чтобы стать более прямым конкурентом для собственных инвесторов Microsoft Office Software Applications (например, Excel, Word, PowerPoint и т. Д.)

Слияние оператора и глубокие исследования одного агента

Фактически, Openai позиционирует агента Chatgpt как объединение двух своих предыдущих агентов-оператора и глубоких исследований, последний представил в феврале 2025 года, что исчерпывающе ищет Интернет через свой собственный безголовный текстовый браузер, чтобы найти и компилировать информацию в длинные и подробные отчеты (отсюда и имя). Как пишет Openai в сообщении в блоге:

«Оператор не мог глубоко погрузиться в анализ или написать подробные отчеты, и глубокие исследования не могли взаимодействовать с веб -сайтами, чтобы уточнить результаты или получить доступ к контенту, требующему аутентификации пользователей.

Предыдущий инструмент оператора будет выведен из строя, но пользователи все еще могут получить доступ к глубокому исследованию через раскрывающуюся спину в интерфейсе CHATGPT.

Одна система, много инструментов

Независимо от того, используя ли визуальный браузер для взаимодействия с веб -сайтом или терминалом для запуска кода Python, агент легко перемещается между инструментами в пределах одного сеанса.

Он поддерживает широкий спектр вариантов использования, от анализа конкурентов и создания отчетов до планирования поездок, суммирования электронных писем или бронирования встреч.

Пользователи могут в любое время прерывать, перенаправить или остановить задачу, а агент поднимается прямо там, где оно осталось.

Доступность и доступ

Начиная с сегодняшнего дня, абоненты на уровне «Pro» Catgpt за 200 долларов в месяц будут иметь полный доступ к агенту CHATGPT с ежемесячной квотой 400 сообщений.

CHATGPT Plus (20 долларов в месяц) и команда (30 долларов в месяц) получат доступ в течение следующих нескольких дней, с 40 сообщениями в месяц. Дополнительное использование доступно с помощью кредитных вариантов.

Openai сказал, что в выпуске, поделившемся с VentureBeat под Embargo, что его подписчики CHATGPT Enterprise и Education получат доступ к этой функции в ближайшие недели.

На данный момент эта функция еще не доступна в Европе или Швейцарии, без сомнения, разочаровывает там жителей.

Построен с безопасностью и управлением на переднем крае

Учитывая, что агент теперь может предпринять действия от имени пользователей, в том числе на зарегистрированных веб-сайтах или с подключенными приложениями, OpenAI ввел обширные меры безопасности.

К ним относятся подтверждения пользователя перед принятием действий, активное наблюдение за конфиденциальными задачами и технические меры для ограничения непреднамеренного поведения.

Ключевые защиты включают:

Подтверждение подсказки Перед тем, как действия, такие как отправка форм или отправка электронных писем
Смотреть режимкоторый останавливает выполнение, когда пользователь становится неактивным
Отказ от задач высокого рисканапример, финансовые переводы или нарушения конфиденциальности
Нет удержания памяти Во время сеансов агента

Классификация доменов высокого риска

В соответствии с структурой готовности, Openai рассматривает агента CHATGPT как Высокая способность Система в биологических и химических областях.

Несмотря на то, что нет прямых доказательств неправильного использования, компания активирует свои самые сильные гарантии безопасности из осторожности.

К ним относятся усиленные тренировки отказа, красное команду от экспертов по биобезопасности и улучшенные системы обнаружения.

Напомним, что недавняя информация Anpropic, опубликованная о его новом Claude Opus 4, и других опросах передовых моделей ИИ, показала, что, когда данный доступ к внешним инструментам и приложениям, таким как электронная почта, в некоторых случаях они могут предпринять действия, которые, по их мнению, являются моральными и этическими, но это может поставить под угрозу пользователя, например, по электронной почте правительственных учреждений или журналистов, подозреваемых по поводу части пользователя.

Модель считает, что она действует как «разоблачитель», но на самом деле может поставить под угрозу конфиденциальность пользователей, безопасность и собственную информацию и предупреждать власти о правонарушении, где их нет, или где она сомнительна.

Сильная производительность в реальных задачах

Агент CHATGPT не просто более способный в теории-он дал сильные результаты по ряду критериев, предназначенных для моделирования реальной работы по знаниям. Он установил новый высокий балл на последнем экзамене человечества с 44,4 с использованием методов параллельного развертывания и достиг 27,4% на сложном эталонном эталоне FrontierMath.

На электронной таблице он набрал 45,5% — больше, чем удвоение копилота в результате исполнения Excel.

Текущие ограничения и следующие шаги

Некоторые функции, такие как генерация слайд-шоу, все еще находятся в бета-версии и могут казаться основными в форматировании или немного различаются между предварительными просмотрами приложения и экспортируемыми файлами.

OpenAI активно тренирует следующую итерацию этой функции для улучшения лака и макета.

Запуск агента CHATGPT сигнализирует о том, как пользователи взаимодействуют с ИИ — от задания вопросов для назначения полных задач.

С помощью своей способности рассуждать, действовать и производить результаты, Openai делает ставку на то, что пользователи все чаще хотят, чтобы ИИ не только помогать им, но и работать на них. Хотя компания подчеркивает, что агент все еще развивается, она рассматривает этот запуск как основу для более интерактивного, ориентированного на действия будущего для ИИ.

Источник

Новости

Blaxel приносит 7,3 млн. Долл. США, чтобы построить «AWS для агентов искусственного интеллекта» после обработки миллиардов запросов агентов

admin 18.07.2025

admin

Blaxel, облачная инфраструктура Blaxel, специально предназначенная для агентов искусственного интеллекта, собрала 7,3 млн. Долл. США в качестве семянного финансирования во главе с первым раундом Capital, сообщила компания в четверг. Финансирование поступило всего через месяц после того, как команда из шести соучредителей закончила партию Y Combinator Spring 2025, подчеркивая аппетит инвесторов к инфраструктурным пьесам на быстро расширяющемся рынке агентов по ИИ.

Компания, базирующаяся в Сан-Франциско, делает ставку на то, что нынешнее поколение облачных провайдеров-Amazon Web Services, Google Cloud и Microsoft Azure-в основном не соответствуют новой волне автономных систем ИИ, которые могут предпринять действия без вмешательства человека. Эти агенты искусственного интеллекта, которые обрабатывают все, от управления календарями до генерации кода, требуют совершенно иной инфраструктуры, чем традиционные веб -приложения, созданные для пользователей.

«Текущие облачные провайдеры были разработаны для Web 2.0, программного обеспечения как эпохи услуг»,-сказал Пол Синай, соучредитель и генеральный директор Blaxel, в эксклюзивном интервью VentureBeat. «Но с этой новой волной агентского искусственного интеллекта мы считаем, что существует необходимость в новом типе инфраструктуры, которая посвящена агентам искусственного интеллекта».

Почему AWS и Google Cloud не были созданы для автономных агентов ИИ

Время отражает более широкий сдвиг в корпоративных вычислениях, поскольку компании все чаще используют агенты искусственного интеллекта для обслуживания клиентов, обработки данных и автоматизации рабочих процессов. В отличие от традиционных приложений, в которых базы данных расположены вместе с веб -серверами в предсказуемых шаблонах, агенты искусственного интеллекта создают уникальные сетевые проблемы, подключаясь к языковым моделям в одном регионе, API в другом облаке и основаниях знаний в других местах — все в то время как пользователи ожидают мгновенных ответов.

Blaxel уже продемонстрировал значительную тягу, обрабатывая миллионы запросов агентов в день в 16 глобальных регионах к концу их партии комбинатора Y. Один клиент работает более 1 миллиарда секунд времени выполнения агента, чтобы обработать миллионы видео, представляющих шкалу, которая иллюстрирует требования инфраструктуры компаний, связанных с AI-Pirst.

«Одним из наших клиентов является обработка воспроизведения сеансов, чтобы позволить менеджерам продуктов лучше понять, как пользователь поведение их продукта», — объяснил Синаи. «Им необходимо обрабатывать миллионы повторений сеансов каждый месяц. Таким образом, он представляет миллионы минут сеансов. Они используют нашу агентскую инфраструктуру для обработки этих повторных ресурсов и предоставления понимания менеджеров по продуктам».

Подход компании сосредоточен на предоставлении инфраструктуры, которой могут работать агенты искусственного интеллекта, а не требовать от администраторов человека. Это включает в себя виртуальные машины с песочницей, которые загружаются менее чем в 25 миллисекунд, автоматическое масштабирование на основе моделей активности агента, и API, предназначенные для использования непосредственно систем ИИ, а не человеческие разработчики.

Как шесть соучредителей с успешным планом выхода, чтобы взять на себя большие технологии

Необычная шестифункциональная структура Blaxel проистекает из общего опыта команды и продажа предыдущей компании OVHCloud, крупнейшему в Европе облачным провайдером. Эта компания стала всем набором продуктов Analytics в OVH, предоставив команде из первых рук опыт работы с проблемами облачной инфраструктуры, так и успешными выходами.

«Я знаю, что это звучит необычно, довольно большая команда. Мы не подходили точно на сцену для демонстрационного дня», — сказал Синаи, ссылаясь на фирменное событие комбинатора Y. «Но мы уже сделали это. Моя предыдущая компания, которую я продал OVH Cloud, мы также были шестью соучредителями».

В состав команды входят Чарльз Дрейпье, которого Шинаи знает более 15 лет, вместе с соучредителями Кристофом Плуджу, Николасом Лекомте, Томасом Крюшет и Матис Джоффре. Их коллективный опыт охватывает инфраструктуру, инструменты разработчиков и инженерию платформы — критический опыт конкуренции с техническими гигантами с практически неограниченными ресурсами.

«Я думаю, что сейчас важно быть шестью, потому что у нас много амбиций», — сказал Синаи. «То, что мы делаем, — это создание этого следующего поколения облачных вычислений для этой новой агентской эпохи».

Что отличает Blaxel на рынке конкурентной облачной инфраструктуры

Рынок облачной инфраструктуры, как известно, является конкурентоспособным, с AWS командует примерно одной трети доли рынка и более новыми игроками, такими как Modal, Replicate и Runpod, нацеленный на рабочие нагрузки искусственного интеллекта. Блаксел различает себя, сосредотачиваясь специально на агентах ИИ, а не на моделие или обучении.

«Большинство упомянутых вами конкурентов решают очень сложную проблему, которая связана с выводом — как вы можете размещать свою модель, как вы можете сделать эти модели как можно быстрее, с точки зрения количества токенов», — сказал Синаи. «Но не так много людей, работающих над инфраструктурой для агентов, и это именно то, что мы делаем».

Платформа компании включает в себя три основных компонента: хостинг агента для развертывания систем ИИ в качестве без сервера серверов MCP (протокол контекста модели) для подключения агентов к внешним инструментам и унифицированный шлюз для доступа к нескольким моделям искусственного интеллекта. Инфраструктура предназначена для решения переменных требований ресурсов агентов искусственного интеллекта, что может потребовать минимальной вычислительной мощности при ожидании ответов, но требует значительных ресурсов при активной обработке.

Функции безопасности и соблюдения предприятий целевой регулируемых отраслей промышленности

Несмотря на то, что Blaxel внедрил меры по обеспечению безопасности, первых, в младшем AI-Pirst Companies, включая соответствие SOC2 и HIPAA. Платформа предлагает контроль над проживанием данных, которые позволяют клиентам ограничивать рабочие нагрузки в конкретные географические регионы, критические для компаний в регулируемых отраслях.

«Мы предоставляем политическую структуру, в которой вы можете прикрепить, например, к рабочей нагрузке, чтобы сказать, этот агент не может работать за пределами этих подмножеств регионов», — объяснил Синаи. «Вы можете прикрепить политику, чтобы сказать, что этот агент не может работать за пределами Соединенных Штатов, поэтому вы уверены, что этот агент обработает данные только в выбранных вами регионах».

Этот подход отражает убеждение компании в том, что даже компании ИИ на ранней стадии нуждаются в надежной практике инфраструктуры, потому что они строят предприятия завтрашнего дня. «Мы считаем, что очень важно иметь, даже для молодых компаний лучшую инфраструктуру с лучшими практиками, потому что они станут предприятиями», — сказал Синай.

Ценообразование платежного платежа обеспечивает экономию средств на 50% на традиционные без сервера

Blaxel принял модель ценообразования платежного выхода, аналогичную установленным облачным провайдерам, отходя от первоначального подхода по подписке после проверки рыночного спроса во время их партии комбинатора Y. Модель взимает клиенты только тогда, когда их агенты активно обрабатывают задачи, закрывая инфраструктуру в течение периодов простоя для оптимизации затрат.

«Мы предоставляем инфраструктуру, которая вращается всего за несколько миллисекунд и закрывается всего за одну секунду», — сказал Синаи. «Таким образом, вы просто платите за время, когда ваш агент на самом деле что -то обрабатывает. Когда ваш агент ждет чего -то другого, вам не нужно платить за это, потому что мы закрываем это».

Подход уже обеспечил экономию затрат для клиентов, причем один клиент достиг 50% снижения затрат по сравнению с типичными без серверными решениями при обработке терабайт данных ежемесячно.

Gartner предсказает, что 75% приложений будут использовать агенты искусственного интеллекта к 2028 году

Инвестиции поступают, поскольку отраслевые аналитики предсказывают взрывной рост в принятии агентов искусственного интеллекта. Gartner прогнозирует, что 75% разработки приложений будут включать агентов по ИИ к 2028 году, хотя Sinaï считает, что нынешнее принятие предприятия остается в значительной степени экспериментальным.

«Прямо сейчас большинство компаний, работающих активно в производстве, являются в основном небольшими компаниями, а не корпоративными компаниями», — сказал он. «Таким образом, мы действительно сосредотачиваемся на том, чтобы служить им точно так же, как и большие поставщики облаков в прошлом».

Стратегия отражает то, как Amazon Web Services изначально сосредоточилась на стартапах и компаниях, ориентированных на разработчиков, прежде чем распространяться до корпоративных клиентов. Blaxel планирует следовать аналогичному пути, используя 7,3 млн. Долл. США для расширения своей программной платформы, прежде чем потенциально перейти на пользовательскую оптимизацию аппаратного и центра обработки данных.

«Очевидно, что семи миллионов недостаточно для создания центров обработки данных, но я думаю, что важно шаг за шагом», — сказал Синаи. «Будучи уверены, что сейчас у нас есть лучшие интерфейсы, которые мы можем предоставить нашим клиентам, лучшие услуги для их агентов, а затем в более глубокую оптимизацию инфраструктуры».

Дорожная карта компании включает в себя такие функции, как снимки, разбрызгивание для экспериментов агента, автоматические возможности отказоустойчивости и более глубокую оптимизацию для огромного масштаба, которую они ожидают. В преддверии сотен миллиардов агентов искусственного интеллекта в ближайшие десятилетия Блаксель видит возможность построить инфраструктуру, предназначенную для этой новой вычислительной парадигмы с нуля.

«Мы считаем, что существует огромная экономика, которая начинается вокруг агентов», — сказал Синаи. «Будут сотни миллиардов агентов искусственного интеллекта, и инфраструктура, которую мы имеем сегодня, не была разработана для этой новой волны».

Раунд финансирования включал участие в комбинаторе Y Combinator, Liquid2, Transpose и Angel Investors, которые разделяют видение компании в специально построенной агентской инфраструктуре. По мере того, как агенты AI переходят от экспериментальных инструментов к производственным системам, обрабатывая критические бизнес -процессы, специализированный подход Blaxel может позиционировать его для получения значительной доли рынка в том, что может стать следующей основной категорией облачных вычислений.

Источник

Новости

Slack становится умнее: новые инструменты AI суммируют чаты, объясните жаргон и автоматизируйте работу

admin 17.07.2025

admin

Slack разрабатывает широкий спектр функций искусственного интеллекта, которые обещают устранить рутинные задачи и превратить платформу обмена сообщениями в центральный центр для производительности предприятия, отмечая прямую задачу владельца Salesforce для доминирования Microsoft на рабочем месте.

Объявления, которые должны развернуться в течение ближайших месяцев, включают помощь в написании AI, встроенную непосредственно в функцию Canvas Slack, объяснения контекстуальных сообщений, автоматизированное идентификацию элемента действия и возможности поиска предприятия, которые охватывают несколько подключенных бизнес-приложений. Эти шаги становятся одновременно Salesforce одновременно ограничивают внешние компании по искусственному искусству, создавая подход к саду с стеной, который отражает более широкие тенденции отрасли в отношении консолидации платформы.

«В отличие от некоторых инструментов искусственного интеллекта, которые находятся вне потока работы, AI Slack появляется там, где происходит работа — в разных разговорах, решениях и документации», — сказал Шалини Агарвал, вице -президент Slack Product в Salesforce, в эксклюзивном интервью VentureBeat. «Ключевым отличием является контекст, который приходит в форме структурированных и неструктурированных данных в Slack».

Время подчеркивается усиливающая конкуренция на рынке совместной работы предприятий в 45 миллиардов долларов, где платформа Microsoft Teams и ее помощник Copilot AI приобрели значительную поддержку против Slack, поскольку Salesforce 27,7 млрд. Долл. США приобретения в сфере сообщений в 2021 году. Google также продвигает свои дуэты по приложениям по рабочим пространствам, создавая трибуческие битвы в области Google, которые становятся в Google-Lize-Lizing, ведущие ведущие в карту.

Как работает контекстный ИИ Slack в разговорах на рабочем месте

Новые возможности Slack отходят от традиционных моделей помощника искусственного интеллекта, которые требуют, чтобы пользователи активно предпринимали помощи. Вместо этого платформа будет активно выявлять соответствующую информацию и автоматизировать рутинные задачи в рамках существующих рабочих процессов.

Помощь в написании искусственного интеллекта, вскоре запустившаяся в рамках функции Canvas Slack, позволит командам автоматически генерировать брифины проекта из беседы, извлекать элементы действий из мозгового штурма и примечания к переформатированию в структурированные обновления. В сочетании с существующей транскрипцией собрания Slack в AI в Гуддле эта функция создает сквозной рабочий процесс документации.

«ИИ должен чувствовать себя легким и плавным, и вам не нужно усердно работать, чтобы использовать его», — сказал Агарвал VentureBeat. «С момента выпуска ИИ в Slack клиенты суммировали более 600 миллионов сообщений, сэкономив коллективные 1,1 миллиона часов у пользователей».

Возможно, более интригующе, Slack представит объяснения контекстуальных сообщений, которые активируются, когда пользователи будут зависать над незнакомыми терминами, аббревиатурами или ссылками на проект. Эта функция опирается на уникальный словарный запас и историю разговоров организации и историю разговоров, хранящихся в Slack, потенциально решает постоянный вызов совместной работы и совместной работы по перекрестной команде.

«Когда -либо сталкивался с незнакомым аббревиатурой или кусочком жаргона в слабым сообщении? В тот момент путаницы, поиска или просята, замедляет все», — отметила компания в своем объявлении.

Поиск предприятия становится новым полем битвы для данных на рабочем месте

Центральным элементом стратегии искусственного интеллекта Slack является поиск предприятия, который теперь обычно доступен, который позволяет пользователям запросить информацию в подключенных приложениях, включая Salesforce, Microsoft Teams, Google Drive, Confluence и Box из одного интерфейса в пределах Slach.

По данным исследования Slack, эта возможность рассматривает стойкую утечку производительности на современных рабочих местах, где работники тратят около 41% своего времени на повторяющиеся задачи, такие как поиск информации в рамках отключенных систем. Позиционируя Slack в качестве единого поискового интерфейса для предприятий, Salesforce делает смелую игру, чтобы стать основным центром рабочего пространства для работников знаний.

Вместо того, чтобы строить соединения между приложениями между приложениями, Slack позиционирует себя как универсальный переводчик для информации на рабочем месте. Этот подход признает суровую реальность: большинство организаций признали, что их данные останутся разбросанными по десяткам приложений, но им отчаянно нужен лучший способ найти и использовать эту информацию.

Для ИТ -отделов Slack обещает минимальную сложность развертывания. «Как правило, это должен быть легкий подъем для ИТ -команд», — сказал Агарвал. «Разъемы будут вне коробки, когда они станут доступны. Как только администраторы включают приложение, а пользователи аутентифицируют его, результаты будут доступны немедленно».

Почему Salesforce блокирует конкурентов искусственного интеллекта от доступа к данным Slack

Несмотря на то, что Slack открывает свои возможности поиска для подключенных приложений клиентов, Salesforce агрессивно ограничивает то, как внешние компании, занимающиеся ИИ, получают доступ к данным Slack. В мае компания внесла изменения в свои условия обслуживания API, чтобы запретить объемный экспорт данных и явно запретить использование данных Slack для обучения крупных языковых моделей.

Этот шаг влияет на сторонние поисковые компании, такие как Glean, которые индексировали слабые разговоры наряду с другими источниками данных предприятия для обеспечения единого поискового опыта. В соответствии с новыми ограничениями такие компании могут получить доступ к данным Slack только через поисковые API в реальном времени со значительными ограничениями.

Salesforce делает рассчитанную азартную игру. Ограничивая доступ к данным Slack, компания делает ставку на то, что ее собственные возможности ИИ окажутся выше внешних альтернатив. Но корпоративные клиенты последовательно показывают, что предпочитают выбор и гибкость в отношении принудительного блокировки поставщика. Если конкурирующие платформы искусственного интеллекта обеспечивают значительно лучшие результаты, используя данные из других источников, Salesforce рискует подталкивать клиентов к альтернативным платформам обмена сообщениями, которые предлагают более открытую интеграцию.

Ограничения подчеркивают, насколько ценными стали данные разговора на рабочем месте. С более чем 5 миллиардами сообщений, которые еженедельно обменивались на Slack, платформа содержит то, что Агарвал описывает как «историю вашей компании, и всю информацию между командами и проектами».

Эти разговорные данные предлагают что-то уникальное в ландшафте программного обеспечения Enterprise: неструктурированная, богатая контекстом информация о том, как на самом деле выполняется работа, а не официальная документация о том, как это должно быть сделано.

Проблемы безопасности предприятия стимулируют функции доверия и соответствия ИИ

Salesforce создал свои возможности ИИ в отношении того, что он называет «Трастовым уровнем Эйнштейна», подчеркивая, что данные о клиентах никогда не покидают инфраструктуру компании или поезжают внешние модели искусственного интеллекта. В подходе рассматриваются предприятия по поводу суверенитета данных, которые замедлили принятие ИИ в регулируемых отраслях.

«Защита данных наших клиентов является главным приоритетом Slack», — сказал Агарвал. «Данные клиентов остаются на месте, Slack не делится данными клиентов с поставщиками LLM, а Slack не использует данные клиентов для обучения LLMS».

Функции ИИ на платформе наследуют существующие контроли безопасности в области обеспечения безопасности Slack Slack, в том числе поддержку соответствия FedRamp, управление ключами шифрования и международные требования к месту жительства данных. Результаты поиска автоматически уважают существующие разрешения пользователей между подключенными приложениями, предотвращая несанкционированное воздействие данных.

Ранние результаты клиентов показывают измеримый рост производительности от функций искусственного интеллекта

Ранние результаты клиентов предполагают значимый рост производительности, хотя размер выборки остается ограниченным. Внутренняя команда Salesforce сообщает, что его агент по искусственному искусству прошел более 18 000 разговоров в течение 3500 пользователей за шесть месяцев, что потенциально экономит эквивалент восьми рабочих работников на полную ставку ежегодно.

Другие клиенты сообщают о аналогичных показателях. OpenTable обработала 73% веб -запросов ресторана, используя AG AgentForce AgentForce Salesforce всего за три недели, в то время как двигатель платежного процессора сократил среднее время обработки на 15% и проецирует 2 миллиона долларов в годовой экономии затрат.

Эти ранние результаты, хотя и многообещающие, должны рассматриваться с соответствующим скептицизмом. Измерения производительности в корпоративном программном обеспечении часто страдают от предвзятости отбора, где только самые успешные реализации генерируют общественные тематические исследования. Истинный тест возможностей Слэка станет в качестве шкалы усыновления за пределами ранних пользователей для основных предприятий с более сложными, менее стандартизированными рабочими процессами.

Как стратегия ИИ Slack сравнивается с Microsoft Copilot и Google Workspace

Объявления позиционируют Slack более непосредственно против комплексной стратегии AI Microsoft, которая включает в себя интеграцию Copilot на платформе Office 365 и Teams. Подход Microsoft приобрел значительную силу предприятия, поскольку компания сообщила, что внедрение Copilot способствует повышению повышения производительности рабочего места по всей клиентской базе.

Тем не менее, подход Slack по разговору может предложить преимущества для организаций, где неформальная коммуникация движет принятием решений. «Разговорной интерфейс Slack и богатый контекст делают его очень естественным домом для агентов искусственного интеллекта», — отметил Агарвал.

Компания также расширяет свою охват через новые стратегии ценообразования, в том числе значительные государственные скидки, которые отражают конкурентную тактику Google. В мае Salesforce объявила о скидках до 90% для федеральных агентств до ноября, заменив фрагментированные переговоры по агентству за агентством.

Будущее автономных агентов ИИ в сотрудничестве на рабочем месте

Видение Агарвала выходит за рамки текущих возможностей к автономным агентам ИИ, которые могут выполнять сложные рабочие процессы в нескольких системах. «Наше видение агентской рабочей операционной системы заключается в том, что каждый может принести ИИ, агенты, данные клиентов, сотрудничество в команде и подключенные системы в одно место, чтобы они могли работать быстрее и умнее», — сказала она.

Компания недавно запустила AgentForce в Slack, привлекая специфические товарищи по команде, которые могут обновлять CRM Records, публиковать в каналах и помогать с участием сотрудников. Ранние результаты показывают, что команда продаж Salesforce экономит 66 000 часов в год благодаря помощи в области искусственного интеллекта с помощью Deal Insights и руководителей.

Поскольку возможности ИИ становятся табличными ставками для предприятия, успех Слэка может зависеть от выполнения, а не от инноваций. Сила платформы заключается в его позиции в качестве фактического стандарта для обмена сообщениями на рабочем месте, предоставляя разговорной контекст, который делает ответы ИИ более актуальными и действенными.

Остается ли это контекстуальное преимущество устойчивым против интегрированной экосистемы Microsoft и опыта поиска Google, остается открытым вопросом. Но на данный момент Salesforce делает ставку на то, что будущее работы происходит в разговорах — и что тот, кто контролирует эти разговоры, контролирует рынок искусственного интеллекта на рабочем месте.

Новые функции искусственного интеллекта будут включены во все платные планы по слабым, с расширенными возможностями, зарезервированными для подписок более высокого уровня. Клиенты Enterprise+ получат полный опыт ИИ, включая контроль за поиском и управления предприятиями, предназначенные для крупномасштабного развертывания.

Для предприятия, принимающих решения, оценивающие инструменты совместной работы AI, подход Slack предлагает убедительную альтернативу стратегии интеграции Microsoft в масштабе. Вопрос заключается в том, может ли контекстный ИИ в разговорах конкурировать с более широким уровнем производительности, обещанным помощниками искусственного интеллекта, встроенными по всем программным экосистемам.

Источник