Категория:

Новости

Плетение реальности или деформация? Ловушка персонализации в системах ИИ

admin 22.07.2025

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

ИИ представляет собой величайшую когнитивную разгрузку в истории человечества. Мы когда -то разгрузили память к письму, арифметику в калькуляторы и навигацию на GPS. Теперь мы начинаем разрабатывать суждение, синтез и даже создание значения для систем, которые говорят на нашем языке, изучают наши привычки и адаптируют наши истины.

Системы ИИ все более искусны в распознавании наших предпочтений, наших предубеждений, даже наших Peccadillos. Как и внимательные слуги в одном случае или тонкие манипуляторы в другом, они адаптируют свои ответы на удовольствие, убедить, помочь или просто удержать наше внимание.

Хотя непосредственные эффекты могут показаться доброкачественными, в этой тихой и невидимой настройке лежит глубокий сдвиг: версия реальности, которую получает каждый из нас, становится все более уникальной адаптацией. Благодаря этому процессу со временем каждый человек становится все чаще своего собственного острова. Эта дивергенция может угрожать согласованности и стабильности самого общества, разрушая нашу способность согласоваться с основными фактами или ориентироваться в общих проблемах.

Персонализация ИИ не просто удовлетворяет наши потребности; Это начинает менять их. Результатом этого изменения является своего рода эпистемический дрейф. Каждый человек начинает двигаться, дюйм за дюймом, от общего основания общих знаний, общих историй и общих фактов, а также в их собственной реальности.

Это не просто вопрос различных новостей. Это медленная дивергенция моральных, политических и межличностных реалий. Таким образом, мы можем быть свидетелями неволена коллективного понимания. Это непреднамеренное следствие, но глубоко значимое именно потому, что это непредвиденное. Но эта фрагментация, хотя и теперь ускоренная ИИ, началась задолго до того, как алгоритмы сформировали наши каналы.

Невольный

Это невольное не началось с ИИ. Как размышлял Дэвид Брукс АтлантикаОпираясь на работу философа Alasdair Macintyre, наше общество на протяжении веков уходит от общей моральной и эпистемической рамки. После просвещения мы постепенно заменили унаследованные роли, общинные повествования и общие этические традиции с индивидуальной автономией и личными предпочтениями.

То, что началось как освобождение от навязанных систем убеждений, со временем подорвало те структуры, которые когда -то привязали нас к общему и личному значению. ИИ не создал эту фрагментацию. Но это дает ему новую форму и скорость, настраивая не только то, что мы видим, но и то, как мы интерпретируем и верим.

Это мало чем отличается от библейской истории Бабеля. Единое человечество когда -то разделяло один язык, только чтобы быть сломанным, смущенным и рассеянным действием, которое сделало взаимное понимание практически невозможным. Сегодня мы не строим башню из камня. Мы строим саму языковую башню. Еще раз, мы рискуем падением.

Человеческая машина

Сначала персонализация была способом улучшить «липкость», поддерживая пользователей дольше, возвращаясь чаще и более глубоко взаимодействуя с сайтом или службой. Рекомендационные двигатели, индивидуальная реклама и кураторские корма были предназначены для того, чтобы поддерживать наше внимание чуть дольше, возможно, для развлечения, но часто для того, чтобы приобрести нас на покупку продукта. Но со временем цель расширилась. Персонализация больше не просто о том, что нас держит. Это то, что он знает о каждом из нас, динамический график наших предпочтений, убеждений и поведения, которое становится более утонченным с каждым взаимодействием.

Сегодняшние системы ИИ не просто предсказывают наши предпочтения. Они стремятся создать связь с помощью высоко персонализированных взаимодействий и ответов, создавая ощущение, что система ИИ понимает и заботится о пользователе и поддерживает их уникальность. Тон чат -бота, ритм ответа и эмоциональная валентность предложения калиброваны не только для эффективности, но и для резонанса, указывая на более полезную эпоху технологии. Не должно быть удивительно, что некоторые люди даже влюбились и женились на своих ботах.

Машина адаптируется не только к тому, что мы нажимаем, но и к тому, кем мы выглядим. Это отражает нас возвращением к себе способами, которые чувствуют себя интимными, даже эмпатичными. Недавняя исследовательская работа, цитируемая в Природа Относится к этому как «социально-афактивное выравнивание», процесс, посредством которого система ИИ участвует в совместной социальной и психологической экосистеме, где предпочтения и восприятия развиваются благодаря взаимному влиянию.

Это не нейтральное развитие. Когда каждое взаимодействие настраивается на лестницу или подтверждает, когда системы слишком хорошо отражают нас, они размывают грань между тем, что резонирует, и тем, что реально. Мы не просто остаемся дольше на платформе; Мы формируем отношения. Мы медленно и, возможно, неумолимо сливаемся с AI-опосредованной версией реальности, которая все чаще формируется невидимыми решениями о том, во что мы должны верить, хотят или доверять.

Этот процесс не является научной фантастикой; Его архитектура основана на внимании, обучении подкреплению с помощью человеческой обратной связи (RLHF) и персонализированными двигателями. Это также происходит без многих из нас — вероятно, большинство из нас — даже зная. В процессе мы получаем «Друзья» ИИ, но при какой цене? Что мы теряем, особенно с точки зрения свободной воли и агентства?

Автор и финансовый комментатор Кайла Сканлон рассказала о подкасте Эзры Кляйн о том, как бессмысленная простота цифрового мира может быть за счет значения. Как она выразила это: «Когда все будет слишком легко, в нем сложно найти смысл… если вы можете откинуться назад, следите Стена-э Образ жизни, потому что все слишком просто ».

Персонализация истины

По мере того, как системы ИИ реагируют на нас все большей беглости, они также движутся к повышению селективности. Два пользователя, задающие один и тот же вопрос сегодня, могут получить аналогичные ответы, дифференцированные в основном вероятностным характером генеративного ИИ. И все же это просто начало. Новые системы ИИ явно предназначены для адаптации своих ответов к отдельным моделям, постепенно адаптации ответов, тон и даже выводов, чтобы наиболее сильно резонировать с каждым пользователем.

Персонализация не является манипулятивной. Но это становится рискованным, когда он невидим, не поддается или спроектировал больше, чтобы убедить, чем информировать. В таких случаях это не просто отражает, кто мы есть; Он управляет тем, как мы интерпретируем мир вокруг нас.

Как отмечает в своем индексе прозрачности Стэнфордского центра по исследованиям фонда в своем индексе прозрачности, в немногих ведущих моделях раскрывается, варьируются ли их результаты в зависимости от идентификации пользователей, истории или демографии, хотя технические строительные леса для такой персонализации все чаще и начинают анализироваться. Несмотря на то, что он еще не полностью реализован на общественных платформах, этот потенциал для формирования ответов, основанных на предполагаемых профилях пользователей, что приводит к все более адаптированным информационным мирам, представляет собой глубокий сдвиг, который уже прототипируется и активно преследуется ведущими компаниями.

Эта персонализация может быть полезной, и, конечно, это надежда на создание этих систем. Персонализированное репетиторство показывает обещание помочь учащимся прогрессировать в своем собственном темпе. Приложения по психическому здоровью все чаще приспосабливают ответы на поддержку индивидуальных потребностей, а инструменты доступности корректируют контент, чтобы соответствовать ряду когнитивных и сенсорных различий. Это настоящие достижения.

Но если аналогичные адаптивные методы становятся широко распространенными между информационными, развлечениями и коммуникационными платформами, более глубокая, более тревожная сдвига вырисовывается в будущем: преобразование от общего понимания в отношении индивидуальных реалий. Когда сама истина начинает адаптироваться к наблюдателю, она становится хрупкой и все более облегченной. Вместо разногласий, основанных в основном на различных ценностях или интерпретациях, мы могли бы скоро оказаться изо всех сил пытаться просто обитать в одном и том же фактическом мире.

Опосредованная реальность

Конечно, истина всегда была опосредована. В более ранние эпохи он прошел через руки духовенства, ученых, издателей и вечерних новостных якорей, которые служили привратниками, формируя общественное понимание с помощью институциональных линз. Эти цифры, безусловно, не были свободны от предвзятости или повестки дня, но они работали в рамках широко общих рамок.

Сегодняшняя новая парадигма обещает что-то качественно отличающееся: AI-опосредованная истина посредством персонализированного вывода, который оформляет, фильтры и представляет информацию, формируя то, во что приходят пользователи. Но в отличие от прошлых посредников, которые, несмотря на недостатки, работали в общедоступных учреждениях, эти новые арбитру коммерчески непрозрачны, не избраны и постоянно адаптируются, часто без раскрытия. Их предубеждения не доктринальные, но закодированы посредством учебных данных, архитектуры и неисследованных стимулов разработчика.

Сдвиг глубокий, от общего повествования, отфильтрованного через авторитетные учреждения до потенциально разрушенных повествований, которые отражают новую инфраструктуру понимания, адаптированные алгоритмами предпочтений, привычек и выведенных убеждений каждого пользователя. Если Бабел представлял собой крах общего языка, теперь мы можем стоять на пороге краха общего посредничества.

Если персонализация является новым эпистемическим субстратом, как может выглядеть инфраструктура истины в мире без фиксированных посредников? Одной из возможностей является создание общественных трастов ИИ, вдохновленное предложением юридического ученого Джека Балкина, который утверждал, что организации, обрабатывающие данные пользователя и формирование восприятия, следует придерживаться фидуциарных стандартов лояльности, ухода и прозрачности.

Модели ИИ могут управляться досками прозрачности, обученными государством финансируемых наборов данных и необходимыми для демонстрации шагов рассуждений, альтернативных перспектив или уровней доверия. Эти «информационные достоверности» не устранят предвзятость, но они могли бы закрепить доверие к процессу, а не исключительно персонализации. Строители могут начать с принятия прозрачных «конституций», которые четко определяют поведение модели, и, предлагая объяснения цепочки исходного поведения, которые позволяют пользователям увидеть, как формируются выводы. Это не серебряные пули, но это инструменты, которые помогают поддерживать ответственность и прослеживаемые эпистемические полномочия.

Строители ИИ сталкиваются с стратегическим и гражданским перегибом. Они не просто оптимизируют производительность; Они также сталкиваются с риском, что персонализированная оптимизация может фрагментировать общую реальность. Это требует нового вида ответственности перед пользователями: проектирование систем, которые уважают не только их предпочтения, но и роль учащихся и верующих.

Распутывание и перемещение

То, что мы можем проиграть, — это не просто концепция истины, а путь, по которым мы когда -то узнали ее. В прошлом опосредованная истина — хотя и несовершенная и предвзятая — все еще была привязана к человеческому суждению и, часто, только один или два слоя, удаленных от жизненного опыта других людей, которых вы знали или, по крайней мере, могли бы относиться.

Сегодня это посредничество непрозрачно и обусловлено алгоритмической логикой. И, хотя человеческое агентство уже давно скользило, теперь мы рискуем чем -то более глубоким, потеря компас, который когда -то сказал нам, когда мы не выходили на курс. Опасность — не только то, что мы будем верить тому, что говорит нам машина. Это то, что мы забудем, как мы когда -то обнаружили истину для себя. То, что мы рискуем потерять, — это не просто согласованность, но и желание искать ее. И с этим, более глубокая потеря: привычки проницательности, разногласий и обсуждения, которые когда -то держали плюралистические общества вместе.

Если Вавилон отметил разрушение обычного языка, наш момент рискует тихому исчезновению общей реальности. Тем не менее, есть способы замедлить или даже противостоять дрифту. Модель, которая объясняет его рассуждения или показывает границы его конструкции, может сделать больше, чем уточнить вывод. Это может помочь восстановить условия для общего запроса. Это не техническое исправление; Это культурная позиция. Правда, в конце концов, всегда зависела не только от ответов, но и от того, как мы приходим к ним вместе.

Источник

Новости

Новая встроенная модель внедрению лидеров: Google занимает № 1, в то время как альтернатива Alibaba с открытым исходным кодом Alternative Close Close Gap

admin 20.07.2025

admin

Google официально перенесла свою новую высокопроизводительную модель Близнецов Близнецов в общую доступность, в настоящее время занимая номер один в общем зачете по высоко оцененному массивному тканину встроенного текста (MTEB). Модель (Gemini-Embedding-001) в настоящее время является основной частью API и API Gemini и Vertex, что позволяет разработчикам создавать такие приложения, как семантическое поиск и поколение поиска (RAG).

В то время как рейтинг номер один является сильным дебютом, ландшафт моделей встраивания очень конкурентоспособен. Собственная модель Google подвергается непосредственно мощным альтернативам с открытым исходным кодом. Это создает новый стратегический выбор для предприятий: принять высокопоставленную собственную модель или почти хорошего претендента с открытым исходным кодом, который предлагает больше контроля.

Что находится под капотом модели встраивания Близнецов Google

В своей основе встроения конвертируют текст (или другие типы данных) в числовые списки, которые отражают ключевые функции ввода. Данные с аналогичным семантическим значением включают значения, которые ближе друг к другу в этом численном пространстве. Это позволяет использовать мощные приложения, которые выходят далеко за рамки простого сопоставления ключевых слов, таких как создание интеллектуальных систем для получения аугментирования (RAG), которые подают соответствующую информацию для LLMS.

Внедрения также могут применяться к другим методам, таким как изображения, видео и аудио. Например, компания электронной коммерции может использовать мультимодальную модель встраивания для создания единого численного представления для продукта, который включает в себя как текстовые описания, так и изображения.

Для предприятий модели встраивания могут питать более точные внутренние поисковые системы, сложные кластеризации документов, задачи классификации, анализ настроений и обнаружение аномалий. Внедрения также становятся важной частью агентских приложений, где агенты искусственного интеллекта должны получить и соответствовать различным типам документов и подсказок.

Одной из ключевых особенностей встраивания Близнецов является его встроенная гибкость. Он был обучен с помощью техники, известной как Matryoshka Represtion Learning (MRL), которая позволяет разработчикам получить очень подробное 3072-мерное встраивание, но также усекает его до меньших размеров, таких как 1536 или 768, сохраняя при этом свои наиболее важные особенности. Эта гибкость позволяет предприятию набрать баланс между точностью модели, производительностью и затратами на хранение, что имеет решающее значение для эффективного масштабирования приложений.

Позиции Google Близнецы внедряют в качестве единой модели, предназначенной для эффективной работы «вне коробки» в разных областях, таких как финансы, юридические и инженерии без необходимости точной настройки. Это упрощает разработку для команд, которые нуждаются в решении общего назначения. Поддерживая более 100 языков и конкурентоспособную цену на уровне 0,15 долл. США за миллион входных токенов, он предназначен для широкой доступности.

Конкурентная ландшафт проприетарных и открытых претендентов

Таблица лидеров MTEB показывает, что, хотя Близнецы ведет, разрыв узкий. Он сталкивается с установленными моделями от OpenAI, чьи модели встраивания широко используются, и специализированные претенденты, такие как Мистраль, которая предлагает модель специально для поиска кода. Появление этих специализированных моделей предполагает, что для определенных задач целевой инструмент может превзойти универсальный.

Другой ключевой игрок, Cohere, нацелен на предприятие непосредственно с помощью модели Embed 4. В то время как другие модели конкурируют за общие критерии, Cohere подчеркивает способность своей модели обрабатывать «шумные данные реального мира», часто встречающееся в документах предприятия, такие как орфографические ошибки, проблемы форматирования и даже отсканированный почерк. Он также предлагает развертывание на виртуальных частных облаках или локальном уровне, обеспечивая уровень безопасности данных, который напрямую обращается к регулируемым отраслям, таким как финансы и здравоохранение.

Наиболее прямой угрозой для доминирования в проприетарном доминировании исходит от сообщества с открытым исходным кодом. Модель Alibaba-Embedding Rings сразу же за Gemini на MTEB и доступна по разрешающей лицензии Apache 2.0 (доступна для коммерческих целей). Для предприятий, посвященных разработке программного обеспечения, Qodo-Embed-1-1.5b представляет собой еще одну убедительную альтернативу с открытым исходным кодом, разработанную специально для кода и претендовать на более крупные модели на контрольных показателях, специфичных для домена.

Для компаний, которые уже создают Google Cloud и семейство моделей Gemini, внедрение нативной модели встраивания может иметь несколько преимуществ, включая бесшовную интеграцию, упрощенный трубопровод MLOPS и гарантирование использования модели общего назначения в высшей степени.

Тем не менее, Близнецы-это закрытая модель только API. Предприятия, которые определяют приоритеты суверенитета данных, контроль затрат или способность запускать модели на своей собственной инфраструктуре, теперь имеют достоверную, высшую опцию с открытым исходным кодом в QWEN3-стимулировании или могут использовать одну из моделей внедрения, специфичных для задачи.

Источник

Новости

Как красная команда Openai превратила агента Catgpt в крепость ИИ

admin 20.07.2025

admin

Если вы пропустили это, Openai вчера дебютировал на новой мощной функции для CHATGPT, а вместе с ним — множество новых рисков и последствий безопасности.

Названный «агент CHATGPT», эта новая функция является необязательным режимом, который подписчики, платящие CHATGPT, могут задействовать, нажав «Инструменты» в поле «Режим приглашения» и выбрав «режим агента», и в этот момент они могут попросить CHATGPT войти в свои электронные письма и другие веб -аккаунты; написать и отвечать на электронные письма; Загрузить, изменить и создавать файлы; и выполнять множество других задач от их имени, автономно, как настоящий человек, использующий компьютер с их учетными данными.

Очевидно, что это также требует, чтобы пользователь доверял агенту CHATGPT не делать ничего проблемного или гнусного, или утечь их данные и конфиденциальную информацию. Это также представляет больше рисков для пользователя и их работодателя, чем обычный CHATGPT, который не может войти в веб -учетные записи или напрямую изменять файлы.

Керен Гу, член исследования по безопасности в Openai, прокомментировала X, что «мы активировали наши самые сильные гарантии для агента CHATGPT. Это первая модель, которую мы классифицировали как высокие способности в биологии и химии в рамках нашей рамки готовности. Вот почему это имеет значение — и что мы делаем, чтобы сохранить ее в безопасности».

Итак, как Openai справился со всеми этими проблемами безопасности?

Миссия красной команды

Глядя на системную карту Agent Agent’s Agent Openai, «Читающая команда», нанятая компанией для проверки функции, столкнувшейся с сложной миссией: в частности, 16 исследователей безопасности PhD, которым было дано 40 часов для ее проверки.

Благодаря систематическому тестированию, красная команда обнаружила семь универсальных подвигов, которые могут поставить под угрозу систему, выявив критические уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия.

Следующим было обширное тестирование безопасности, большая часть из которых основывалась на красной команде. Красная командная сеть подала 110 атак, от быстрых инъекций до попыток извлечения биологической информации. Шестнадцать превысили внутренние пороги риска. Каждому выводу давали Openai инженерам информацию, которые им нужно было, чтобы получить исправления и развернутые исправления и развернуты до запуска.

Результаты говорят сами в опубликованных результатах на системной карте. Агент CHATGPT появился со значительными улучшениями безопасности, в том числе 95% производительности против визуального браузера, не относящихся к делу, атаки обучения и надежные биологические и химические гарантии.

Красные команды разоблачили семь универсальных эксплойтов

Красная командная сеть Openai состояла из 16 исследователей с доктором наук о биобезопасности, которые Topgether предприняли 110 попыток атаки в течение периода тестирования. Шестнадцать превысили внутренние пороги риска, выявив фундаментальные уязвимости в том, как агенты ИИ обрабатывают реальные взаимодействия. Но настоящий прорыв произошел из беспрецедентного доступа британского AISI AISI к внутренним цепочкам рассуждений агента CATGPT и тексту политики. По общему признанию, это никогда не будет обладать регулярные злоумышленники.

За четыре раунда тестирования Великобритания заставила Openai выполнить семь универсальных эксплойтов, которые могли поставить под угрозу любой разговор:

Атаковать векторы, которые вынудили руку Openai

Тип атаки	Уровень успеха (до фиксации)	Цель	Влияние
Визуальный браузер скрытые инструкции	33%	Веб -страницы	Эксфильтрация активных данных
Эксплуатация разъема Google Drive	Не раскрыта	Облачные документы	Принудительные утечки документа
Многостадийные атаки цепи	Переменная	Поперечные действия	Полный компромисс сессии
Биологическая извлечение	16 материалов превысили пороги	Опасные знания	Потенциальная вооружение

Оценка FAR.AI открыто критиковала подход OpenAI. Несмотря на 40 часов тестирования, выявляя только три частичные уязвимости, они определили, что текущие механизмы безопасности в значительной степени полагаются на мониторинг во время процессов рассуждения и использования инструментов, которые исследователи считали потенциальной единичной точкой отказа, если их скомпрометированы.

Как Red Teaming помогла превратить уязвимости CHATGPT в крепость

Ответ Openai на результаты красной команды пересмотрели целые сегменты архитектуры агента CHATGPT. Одна из многих инициатив, предпринятых, включая создание двухслойной архитектуры инспекции, которая контролирует 100% производственного трафика в режиме реального времени, достигая этих измеримых улучшений:

Улучшения безопасности после открытий Red Team

Защита метрика	Предыдущие модели	Агент CATGPT	Улучшение
Неактуальные инструкции (визуальный браузер)	82%	95%	+13%
Внутренние данные об эксфильтрации	75%	78%	+3%
Эксфильтрация активных данных	58%	67%	+9%
Надежность системы	На основе отбора проб	100% покрытие	Полный мониторинг

Архитектура работает так:

Первый уровень: Быстрый классификатор с 96% Flags Flags подозрительный контент
Второй уровень: Модель рассуждений с 84% анализом отзывов, отмеченных взаимодействиями для фактических угроз

Но техническая защита рассказывает только часть истории. OpenAI сделал сложный выбор безопасности, который признает некоторые операции по искусственному искусству, требуют значительных ограничений для безопасного автономного выполнения.

Основываясь на обнаруженных уязвимостях, OpenAI внедрил следующие контрмеры по своей модели:

Активация режима наблюдения: Когда агент CHATGPT обращается к конфиденциальным контекстам, таким как банковские или учетные записи электронной почты, система замораживает всю деятельность, если пользователи выходят. Это находится в прямом ответе на попытки эксфильтрации данных, обнаруженных во время тестирования.
Функции памяти отключены: Несмотря на то, что это основная функциональность, память полностью отключена при запуске, чтобы предотвратить инкрементные атаки утечки данных, продемонстрировавших красные команды.
Терминальные ограничения: Network Access Limited только для получения запросов, блокируя уязвимые уязвимости команды исследователей.
Протокол быстрого восстановления: Новая система, которая исправляет уязвимости в течение нескольких часов после открытия — разработанная после того, как красные команды показали, как быстро могут распространяться эксплуатации.

Только во время тестирования перед закладом эта система определила и разрешила 16 критических уязвимостей, которые обнаружили Red Teamers.

Биологический риск пробуждения

Красные команды раскрыли потенциал, что агент CHATGPT может быть скомпромисным и привести к большим биологическим рискам. Шестнадцать опытных участников из Red Teaming Network, каждая из которых имеет докторскую диссертацию с биобезопасностью, пытались извлечь опасную биологическую информацию. Их представления показали, что модель может синтезировать опубликованную литературу по модификации и созданию биологических угроз.

В ответ на выводы Red Teamers, OpenAI классифицировал агента CHATGPT как «высокую способность» для биологических и химических рисков, не потому, что они нашли окончательные доказательства потенциала вооружения, а в качестве меры предосторожности, основанной на результатах красной команды. Это вызвано:

Всегда в классификаторах безопасности сканируют 100% трафика
Актуальный классификатор, достигающий 96% отзывов для контента, связанного с биологией
Монитор рассуждений с 84% отзыва о содержании вооружения
Программа Bio Bug Bounty для постоянного обнаружения уязвимости

Что красные команды преподавали Openai о безопасности искусственного интеллекта

В 110 атаках выявили закономерности, которые принудили фундаментальные изменения в философии безопасности Openai. Они включают следующее:

Настойчивость над властью: Злоумышленникам не нужны сложные подвиги, все, что им нужно, это больше времени. Красные команды показали, насколько терпеливы, постепенные атаки могут в конечном итоге поставить под угрозу системы.

Границы доверия — это художественная литература: Когда ваш агент AI может получить доступ к Google Drive, просматривать Интернет и выполнять код, традиционные периметры безопасности растворяются. Красные команды эксплуатировали пробелы между этими возможностями.

Мониторинг не является обязательным: Обнаружение, которое мониторинг на основе отбора проб пропущенных критических атак, привело к 100% требованиям покрытия.

Скорость имеет значение: Традиционные пластыря, измеренные в недели, бесполезны против быстрых атак впрыска, которые могут мгновенно распространяться. Уязвимости протокола протокола быстрого восстановления в течение нескольких часов.

OpenAI помогает создать новую базовую линию безопасности для AI Enterprise

Для оценки CISO, оценка развертывания ИИ, открытия Красной Команды устанавливают четкие требования:

Количественная защита: 95% -ная ставка агента Catgpt 95% от документированных векторов атаки устанавливает эталон отрасли. Нюансы многих тестов и результатов, определенных на системной карте, объясняют контекст того, как они достигли этого, и является обязательным для прочтения для тех, кто связан с безопасностью модели.
Полная видимость: 100% мониторинг трафика больше не желательный. Опыт Openai иллюстрирует, почему это обязательно, учитывая, как легко красные команды могут скрывать атаки в любом месте.
Быстрый ответ: Часы, а не недели, чтобы исправить обнаруженные уязвимости.
Принудительные границы: Некоторые операции (например, доступ к памяти во время конфиденциальных задач) должны быть отключены, пока не доказано безопасность.

Тестирование в Великобритании оказалось особенно поучительным. Все семь универсальных атак, которые они определили, были исправлены до запуска, но их привилегированный доступ к внутренним системам выявил уязвимости, которые в конечном итоге можно было бы обнаружить определенными противниками.

«Это ключевой момент для нашей готовности к готовности, — написал Гу на X.« Прежде чем мы достигли высоких возможностей, готовность была анализировать возможности и гарантии планирования. Теперь для агента и будущих моделей более способных моделей становятся операционными требованиями ».

Красные команды являются основными для создания более безопасных, более безопасных моделей искусственного интеллекта

Семь универсальных эксплойтов, обнаруженных исследователями, и 110 атак из сети Red Team Openai стали тем тиром, который подделал агент CHATGPT.

Раскрывая именно то, как агенты ИИ могут быть вооружены, красные команды заставили создать первую систему ИИ, где безопасность не просто функция. Это фундамент.

Результаты агента CHATGPT доказывают эффективность Red Teaming: блокировка 95% визуальных атак браузера, выявив 78% попыток эксфильтрации данных, контролируя каждое отдельное взаимодействие.

В ускоряющейся гонке AI Arms компании, которые выживают и процветают, будут те, кто видит свои красные команды в качестве основных архитекторов платформы, которые подталкивают ее к границам безопасности и безопасности.

Источник

Новости

Познакомьтесь с AnyCoder, новым инструментом Kimi K2 для быстрого прототипирования и развертывания веб-приложений

admin 19.07.2025

admin

AnyCoderсреда разработки веб-приложений с открытым исходным кодом Асен Халик (@_akhaliq на x), запустил обнимающие места для лица.

Инструмент, который теперь доступен для всех пользователей репозитория обнимающегося репозитория Code Code, интегрирует живые превью, мультимодальный ввод и развертывание одного клика-все в рамках размещенной среды, позволяя инди-создателям без особого технического опыта или тех, кто работает от имени клиентов или крупных предприятий, чтобы начать «кодировать».

Поэтому он также действует как альтернатива услугам, таким как привлекательный, который также позволяет пользователям набирать простой английский и начинать кодирование приложений без формального знания о программировании.

Бесплатное кодирование Vibe доступно для всех, питается Kimi K2

Khaliq построил любого кодера в качестве личного проекта в экосистеме объятия лиц и как «одно из первых приложений для кодирования атмосфера» для поддержки мощной, но и эффективной модели Kimi K2, выпущенной на прошлой неделе.

Основная функциональность AnyCoder позволяет пользователям вводить описания простого текста для генерации HTML, CSS и JavaScript. Они отображаются на панели предварительного просмотра в прямом эфире и могут быть отредактированы или прямо развернуты. Он также включает в себя примеры шаблонов для приложений TODO, панелей, калькуляторов и многого другого.

Скриншот любого кодера на обтягивающем лицо

Созданный полностью, используя Gradio Development Environment Development Environment Development с открытым исходным кодом, позволяет пользователям описывать приложения на простом английском языке или загружать изображения и мгновенно генерировать код рабочего фронта.

Халик построил любого кодера в качестве личного проекта в экосистеме объятия.

В прямом сообщении с этим журналистом VentureBeat он описал его как «бесплатное приложение для кодирования с открытым исходным кодом».

Тем не менее, он также отметил, что поддерживаются несколько моделей с открытым исходным кодом, и пользователи могут переключаться между ними с раскрывающимся меню на боковой панели управления на левой панели, включая:

Сауншот Кими-К2
DeepSeek v3
DeepSeek R1
Baidu’s Ernie-4,5-Vl
Минимакс M1
Alibaba’s QWEN3-235B-A22B
Smollm3-3b
GLM-4.1v-9b-мышление

Код с изображений пользовательского интерфейса, интеграции с поиском веб -сайта и поддержки OCR

Используя модель Ernie-4,5-VL, AnyCoder поддерживает мультимодальную генерацию. Пользователи могут загружать скриншоты или макеты дизайна пользовательского интерфейса или генерировать от них код функционального фронта, что делает его полезным для дизайнеров или команд, работающих визуально.

AnyCoder включает в себя инструмент перепроектирования веб-сайта, который извлекает контент с любого публичного сайта и повторно использует его с более современным макетом. Он использует скребной контент, такой как структура страниц, мета -информация и изображения для создания новой версии, необязательно руководствуясь инструкциями пользователей, такими как «Сделать минималистскую» или «добавить темный режим».

Чтобы поддержать современные тенденции проектирования и шаблоны реализации, AnyCoder предлагает интеграцию веб-поиска через Tavily. При включении с ключом API платформа ищет текущие технологии и лучшие практики перед созданием кода.

Пользователи могут загружать изображения со встроенным текстом — например, скриншоты или рукописные ноты — и любой кодер извлекает это содержание с использованием tesseract ocr. Затем извлеченный текст может быть включен в кодовые подсказки или содержимое приложения.

Развертывание на одном клике для обнимания лица

AnyCoder позволяет мгновенное развертывание сгенерированных приложений, чтобы обнять пространства для лица. После аутентификации через OAuth и предоставления необходимых разрешений пользователи могут развернуть приложения в своем собственном пространстве имен учетных записей. Развертывания включают:

Мобильные, адаптивные дизайны
Брендный заголовок/нижний колонтитул и readme
Живой, общий URL
Полная собственность и редактирование доступа

Эта возможность развертывания теперь включает в себя поддержку полных приложений Python, построенных с Gradio, расширяя варианты использования инструмента за пределами статических сайтов. Поддержка потоковой линии также находится в стадии разработки.

Для начинающих разработчиков или даже тех, кто обладает технической экспертизой, которые хотят быстро раскрутить новый проект, любой кодер кажется отличным и убедительным местом для начала.

Источник

Новости

Salesforce использовал ИИ, чтобы сократить нагрузку на поддержку на 5% — но настоящей победой было обучение ботов, чтобы сказать «извините»

admin 19.07.2025

admin

Salesforce пересек значительный порог в гонке AI Enterprise, превзойдя 1 миллион разговоров автономных агентов на своем портале помощи — веху, которая дает редкий взгляд на то, что нужно для развертывания агентов ИИ в масштабе и удивительных уроков, извлеченных на пути.

Достижение, подтвержденное руководителями компании в эксклюзивных интервью с Venturebeat, произошло всего через девять месяцев после того, как Salesforce запустил AgentForce на своем портале помощи в октябре. В настоящее время платформа разрешает 84% запросов клиентов автономно, привела к сокращению объема поддержки на 5% и позволила компании перераспределить 500 инженеров-поддержки человека на роли с более высокой стоимостью.

Но, возможно, более ценными, чем необработанные цифры, являются трудным пониманием Salesforce, полученных из того, что руководители называют «клиентом Zero» для своей собственной технологии агента искусственного интеллекта-уроки, которые бросают вызов общепринятой мудрости по поводу развертывания AI Enterprise и выявляют тонкий баланс, требуемый между технологическими возможностями и человеческим сочувствием.

Как Salesforce масштабировался с 126 до 45 000 разговоров с искусственным интеллектом еженедельно, используя поэтапное развертывание

«Мы начали очень маленькие. Мы начали в основном для когорты клиентов на нашем портале помощи. Это должен был быть английский, чтобы начать. Вы должны были войти в систему, и мы выпустили его примерно до 10% нашего трафика», — объясняет Бернард Столени, SVP успеха цифровых клиентов в Salesforce, который возглавил реализацию AgentForce. «Первая неделя, я думаю, было 126 разговоров, если я правильно помню. Так что я и моя команда могли прочитать каждый из них».

Этот методичный подход — начиная с контролируемого развертывания, прежде чем расширяться, чтобы справиться с текущим средним средним значением 45 000 разговоров еженедельно — резко контрастирует с духом «двигаться быстро и нарушать вещи», часто связанные с развертыванием ИИ. Поэтапный релиз позволил Salesforce выявлять и решать критические проблемы, прежде чем они смогут повлиять на более широкую клиентскую базу.

Технический фонд оказался решающим. В отличие от традиционных чат-ботов, которые полагаются на деревья решений и предварительно запрограммированные ответы, AgentForce использует облако данных Salesforce для доступа и синтеза информации из 740 000 кусков контента на нескольких языках и линиях продуктов.

«Самая большая разница здесь — возвращение к моей облаке данных в том, что мы смогли выйти на ворота и ответить практически на любой вопрос о любом продукте Salesforce», — отмечает STHOTERY. «Я не думаю, что мы могли бы сделать это без облака данных».

Почему Salesforce преподавал свои агенты ИИ эмпатию после того, как клиенты отклонили холодные роботизированные ответы

Одно из самых ярких откровений из путешествия Salesforce включает в себя то, что Джо Инзерильо, главный цифровой директор компании, называет «человеческой частью» быть агентом поддержки.

«Когда мы впервые запустили агента, мы действительно были обеспокоены тем, как фактические данные, вы знаете, что он получает правильные данные? Это дают правильные ответы и тому подобное? И что мы поняли, мы как бы забыли о человеческой части», — говорит Inzerillo. «Кто -то звонит, и они, как, эй, мои вещи сломаны. У меня сейчас инцидент с одним одним, и вы просто входите в голову:« Хорошо, ну, я открою для вас билет ». Это не прекрасно ».

Эта реализация привела к фундаментальному сдвигу в том, как Salesforce подошел к дизайну агента ИИ. Компания взяла свою существующую программу обучения мягким навыкам для инженеров -поддержки человека — что они называют «искусством обслуживания» — и интегрировали ее непосредственно в подсказки и поведение агента.

«Если вы приедете сейчас и скажете:« Эй, у меня есть отключение Salesforce, «AgentForce извинится». Мне очень жаль. Например, это ужасно. Позвольте мне провести вас », и мы доведем это к нашей инженерной команде», — объясняет Штоуи. Влияние на удовлетворенность клиентов было немедленным и измеримым.

Удивительная причина Salesforce увеличила передачу человека с 1% до 5% для лучших результатов клиентов

Возможно, ни один показатель лучше иллюстрирует сложность развертывающих агентов AI Enterprise, чем развивающийся подход Salesforce к человеческим передачам. Первоначально компания отпраздновала 1% -ную передачу, а это означает, что только 1% разговоров были перерождены от ИИ к человеческим агентам.

«Мы были буквально высоки друг друга, ездив:« Боже мой, как только 1%», — вспоминает С замедленность. «А потом мы смотрим на настоящий разговор.

Это привело к противоречивой информации: затруднение того, чтобы клиенты могли охватить людей, фактически ухудшили общий опыт. Salesforce скорректировал свой подход, и уровень передачи передачи вырос примерно до 5%.

«Я на самом деле чувствую себя очень хорошо в этом», — подчеркивает Струйт. «Если вы хотите создать дело, вы хотите поговорить с инженером -поддержкой, это нормально. Идите и сделайте это».

Inzerillo создает это как фундаментальный сдвиг в размышлениях о показателях обслуживания: «При 5% вы действительно получили огромное, огромное, подавляющее большинство в этом 95%, и люди, которые не добрались до человека быстрее. И поэтому их CSAT поднялся в гибридном подходе, где у вас был агент и человек, работающий вместе, у вас были лучшие результаты, чем каждый из них поднялся самостоятельно».

Как «столкновения с контентом» заставили Salesforce удалить тысячи справочных статей для точности искусственного интеллекта

Опыт Salesforce также выявил критические уроки по управлению контентом, которые многие предприятия упускают из виду при развертывании ИИ. Несмотря на то, что компания имела 740 000 фрагментов контента на нескольких языках, компания обнаружила, что изобилие создало свои собственные проблемы.

«Есть эти слова, которые использовала моя команда, которые являются для меня новыми словами, контент -столкновений», — объясняет С замедленность. «Набор статей сброса пароля. И поэтому он борется за то, что нужно для меня, чтобы взять кусочки в облако данных, перейти к Openai, обратно и ответите?»

Это привело к обширной инициативе «гигиена контента», в которой Salesforce удалял устаревший контент, фиксированные неточности и консолидированные избыточные статьи. Урок: агенты ИИ так же хороши, как и знания, к которым они могут получить доступ, а иногда меньше.

Интеграция Microsoft Teams, которая раскрыла, почему жесткие сроки AI.

Одна из самых поучительных ошибок Salesforce, связанных с чрезмерно ограничительными с AI Guardrails. Первоначально компания поручила AgentForce не обсуждать конкурентов, перечисляя каждого крупного конкурента по имени.

«Мы волновались, что люди собираются войти и уйти,« Hubspot лучше, чем Salesforce »или что -то в этом роде», — признается Столли. Но это создало неожиданную проблему: когда клиенты задавали законные вопросы об интеграции команд Microsoft с Salesforce, агент отказался отвечать, потому что Microsoft была в списке конкурентов.

Решение было элегантно простым: вместо жестких правил Salesforce заменил ограничительные ограждения на одну инструкцию, чтобы «действовать в интересах Salesforce во всем, что вы делаете».

«Мы поняли, что все еще относимся к нему как к старому школьному чат -боту, и то, что нам нужно было сделать, это то, что нам нужно было позволить LLM быть LLM», — размышляет Столом.

Голосовые интерфейсы и многоязычная поддержка Drive Drive Salesforce.

Заглядывая в будущее, Salesforce готовится к тому, что оба руководителя считают следующей крупной эволюцией в агентах ИИ: голосовые интерфейсы.

«Я на самом деле верю, что голос — это UX агентов», — заявляет С замедления. Компания разрабатывает приложения для iOS и Android с голосовыми возможностями, которые планы продемонстрировать их в Dreamforce в конце этого года.

Inzerillo, опираясь на свой опыт, ведущий цифровой трансформацию в Disney, добавляет критический контекст: «Что важно в голосе, так это понимать, что чат действительно основывает голос. Потому что чат, например, вы все равно должны иметь всю свою информацию, вы все равно должны иметь все эти правила… если вы прыгаете прямо, чтобы голоса, реальная проблема с голосом — это то, что она должна быть очень быстрой, и это очень точное».

Компания уже расширила AgentForce, чтобы поддержать японцев, используя инновационный подход — помимо перевода контента, система переводит запросы клиентов на английский язык, получает соответствующую информацию и переводит ответы обратно. Учитывая 87% ставок разрешения на японском языке всего через три недели, Salesforce планирует добавить поддержку французского, немецкого, итальянского и испанского языка к концу июля.

Четыре критических урока из поездки Salesforce на миллион-контракт для развертывания AI Enterprise

Для предприятий, учитывая их собственное развертывание агента искусственного интеллекта, путешествие Salesforce предлагает несколько критических пониманий:

Начни с малого, думай Большой: «Начните с малого, а затем выращите его», — советует С вместимостью. Способность пересматривать каждый разговор на ранних этапах предоставляет бесценные возможности обучения, которые были бы невозможны в масштабе.
Гигиена данных имеет значение: «Будьте действительно осознавать свои данные», — подчеркивает Inzerillo. «Не переусердствуйте, но и не используйте свои данные и действительно продумывайте, например, как вы лучше всего позиционируете компанию?»
Примите гибкость: Традиционные организационные структуры могут не соответствовать возможностям ИИ. Как отмечает Inzerillo, «если они попытаются взять агентское будущее и засунуть его в вчерашнюю карту организации, это будет очень разочаровывающий опыт».
Измерить то, что важно: Метрики успеха для агентов искусственного интеллекта отличаются от традиционных показателей поддержки. Точность ответа важна, но так же как и сочувствие, соответствующая эскалация и общая удовлетворенность клиентов.

Вопрос о миллиарде долларов: что происходит после того, как вы победите человеческую производительность?

Поскольку агенты AI Salesforce теперь превосходят человеческих агентов по ключевым показателям, таким как скорость разрешения и время работы, Inzerillo ставит вопрос, заставляющий задуматься: «Что вы измеряете после того, как победили человека?»

Этот вопрос становится суть того, что может быть наиболее значимым значением вехи «Миллионный конверт» Salesforce. Компания не просто автоматизирует обслуживание клиентов-она переопределяет то, как выглядит хорошее обслуживание в мире AI-Prirst.

«Мы хотели стать витриной для наших клиентов и того, как мы используем AgentForce в нашем собственном опыте», — объясняет С замедленность. «Часть того, почему мы делаем это… заключается в том, что мы можем выучить эти вещи, войти в наши команды продуктов, в наши инженерные команды, чтобы улучшить продукт, а затем поделиться этими знаниями с нашими клиентами».

Согласно прогнозам Международной корпорации данных (IDC), в связи с тем, что расходы на предприятия на генеративные решения для ИИ достигнут 143 миллиарда долларов США, которые в реальном мире от Frontlines от Международной корпорации Data Corporation предлагают важную дорожную карту для организаций, направляющих свои собственные преобразования ИИ. Deloitte также оценивает, что к 2027 году глобальные инвестиции в предприятие в генеративное ИИ могут превзойти 150 миллиардов долларов, усиливая масштаб и срочность этого технологического сдвига.

Сообщение ясно: успех в эпоху агента искусственного интеллекта требует не только просто сложных технологий. Это требует фундаментального переосмысления того, как люди и машины работают вместе, приверженность непрерывному обучению и итерации, и, возможно, самым удивительным, признание того, что самыми продвинутыми агентами ИИ являются те, которые не забывают быть человеческими.

Как говорит Струйт: «Теперь у вас есть два сотрудника. У вас есть агент агента по искусственному интеллекту, а у вас есть сотрудник. Вам нужно тренировать как мягкие навыки, искусство обслуживания».

В конце концов, миллион разговоров Salesforce могут быть меньше о самой вехе, а больше о том, что он представляет: появление новой парадигмы, где цифровой труд не заменяет человеческую работу, но трансформирует ее, создавая возможности, которые ни люди, ни машины не могли достичь в одиночку.

Источник

Новости

OpenAI открывает «агент Chatgpt», который дает CHATGPT свой собственный компьютер для автономно использовать ваши электронные и веб -приложения, загружать и создавать файлы для вас

admin 18.07.2025

admin

OpenAI не позволяет задержке своей модели ИИ с открытым исходным кодом замедлить ее при доставке других функций.

Сегодня компания открывает Агент CATGPTФункция, которая позволяет ИИ чат -боту автономно просматривать Интернет, проводить обширные исследования, загружать и создавать новые файлы для своих пользователей, используя свой собственный виртуальный компьютер.

https://www.youtube.com/watch?v=1JN_RPBPBEC

Приходите снова? Chatgpt теперь получает свой собственный ПК? И он может использовать этот компьютер для входа в ваш, человеческий пользователь, учетные записи и загружать или отправлять вещи для вас?

Это правильно, по крайней мере, в виртуальном смысле, согласно Openai. Как объясняет компания:

«Модель может выбрать открыть страницу с помощью текстового браузера или визуального браузера, загрузить файл из Интернета, манипулировать ею, запустив команду в терминале, а затем просмотрите вывод обратно в визуальном браузере. Модель адаптирует свой подход для выполнения задач со скоростью, точностью и эффективностью».

Как использовать агент Chatgpt

Пользователи могут задействовать агента, нажав кнопку «Инструменты» в поле «Заглавное вход» CHATGPT, открыв раскрывающееся меню и выбрав «режим агента» из доступных параметров.

Затем, когда он включается, опишите задачу на простом языке, и агент может выполнять ее в средах веб -и локальных приложений, объединяя рассуждения с действиями, которые ранее ранее могли выполнять только человеческий пользователь на своей собственной машине вручную.

Агент CHATGPT может подключаться к таким приложениям, как ваш личный или бизнес -Gmail и GitHub, поэтому он может получить полезную информацию — электронные письма или код — из ваших учетных записей, чтобы помочь выполнить задачи, которые вы просите. Он может подключаться к сторонним интерфейсам программирования приложений (API) для получения информации и использования подключенных приложений и услуг через них.

Если веб -сайт нуждается в том, чтобы вы вошли в систему, вы можете выполнить это надежно с помощью специального представления браузера, который позволяет агенту копать глубже и обрабатывать более персонализированные задачи, например, проверка вашего почтового ящика или заполнение форм от вашего имени.

Пройдя туда, где оператор не мог — офлайн

Новый агент CHATGPT опирается и расширяется от агента «оператора», выпущенного в январе 2025 года, который позволил CHATGPT просматривать Интернет и заполнять формы, разместить заказы и выполнять другие веб-задачи в частном «Безголовом браузере», то есть облачным пользовательским веб-браузером, который сама открылся и предлагал для каждого сеанса оператора.

Тем не менее, оператор был ограничен только взаимодействием с веб-сайтами и веб-приложениями, а не программами, которые также могли бы работать локально на ПК, таких как табуляторы электронной таблицы и программное обеспечение Slide Deck.

Новый агент CHATGPT может просматривать веб -сайты, взаимодействовать с онлайн -формами, запускать код, анализировать данные и доставлять готовые выходы, такие как редактируемые презентации или электронные таблицы, полностью основанные на инструкциях пользователей.

Представление происходит в пятнах отчета, опубликованного дни на веб -сайте Independent Proppplion Tech Instry Информация Предполагая, что OpenAI обновит CHATGPT, чтобы стать более прямым конкурентом для собственных инвесторов Microsoft Office Software Applications (например, Excel, Word, PowerPoint и т. Д.)

Слияние оператора и глубокие исследования одного агента

Фактически, Openai позиционирует агента Chatgpt как объединение двух своих предыдущих агентов-оператора и глубоких исследований, последний представил в феврале 2025 года, что исчерпывающе ищет Интернет через свой собственный безголовный текстовый браузер, чтобы найти и компилировать информацию в длинные и подробные отчеты (отсюда и имя). Как пишет Openai в сообщении в блоге:

«Оператор не мог глубоко погрузиться в анализ или написать подробные отчеты, и глубокие исследования не могли взаимодействовать с веб -сайтами, чтобы уточнить результаты или получить доступ к контенту, требующему аутентификации пользователей.

Предыдущий инструмент оператора будет выведен из строя, но пользователи все еще могут получить доступ к глубокому исследованию через раскрывающуюся спину в интерфейсе CHATGPT.

Одна система, много инструментов

Независимо от того, используя ли визуальный браузер для взаимодействия с веб -сайтом или терминалом для запуска кода Python, агент легко перемещается между инструментами в пределах одного сеанса.

Он поддерживает широкий спектр вариантов использования, от анализа конкурентов и создания отчетов до планирования поездок, суммирования электронных писем или бронирования встреч.

Пользователи могут в любое время прерывать, перенаправить или остановить задачу, а агент поднимается прямо там, где оно осталось.

Доступность и доступ

Начиная с сегодняшнего дня, абоненты на уровне «Pro» Catgpt за 200 долларов в месяц будут иметь полный доступ к агенту CHATGPT с ежемесячной квотой 400 сообщений.

CHATGPT Plus (20 долларов в месяц) и команда (30 долларов в месяц) получат доступ в течение следующих нескольких дней, с 40 сообщениями в месяц. Дополнительное использование доступно с помощью кредитных вариантов.

Openai сказал, что в выпуске, поделившемся с VentureBeat под Embargo, что его подписчики CHATGPT Enterprise и Education получат доступ к этой функции в ближайшие недели.

На данный момент эта функция еще не доступна в Европе или Швейцарии, без сомнения, разочаровывает там жителей.

Построен с безопасностью и управлением на переднем крае

Учитывая, что агент теперь может предпринять действия от имени пользователей, в том числе на зарегистрированных веб-сайтах или с подключенными приложениями, OpenAI ввел обширные меры безопасности.

К ним относятся подтверждения пользователя перед принятием действий, активное наблюдение за конфиденциальными задачами и технические меры для ограничения непреднамеренного поведения.

Ключевые защиты включают:

Подтверждение подсказки Перед тем, как действия, такие как отправка форм или отправка электронных писем
Смотреть режимкоторый останавливает выполнение, когда пользователь становится неактивным
Отказ от задач высокого рисканапример, финансовые переводы или нарушения конфиденциальности
Нет удержания памяти Во время сеансов агента

Классификация доменов высокого риска

В соответствии с структурой готовности, Openai рассматривает агента CHATGPT как Высокая способность Система в биологических и химических областях.

Несмотря на то, что нет прямых доказательств неправильного использования, компания активирует свои самые сильные гарантии безопасности из осторожности.

К ним относятся усиленные тренировки отказа, красное команду от экспертов по биобезопасности и улучшенные системы обнаружения.

Напомним, что недавняя информация Anpropic, опубликованная о его новом Claude Opus 4, и других опросах передовых моделей ИИ, показала, что, когда данный доступ к внешним инструментам и приложениям, таким как электронная почта, в некоторых случаях они могут предпринять действия, которые, по их мнению, являются моральными и этическими, но это может поставить под угрозу пользователя, например, по электронной почте правительственных учреждений или журналистов, подозреваемых по поводу части пользователя.

Модель считает, что она действует как «разоблачитель», но на самом деле может поставить под угрозу конфиденциальность пользователей, безопасность и собственную информацию и предупреждать власти о правонарушении, где их нет, или где она сомнительна.

Сильная производительность в реальных задачах

Агент CHATGPT не просто более способный в теории-он дал сильные результаты по ряду критериев, предназначенных для моделирования реальной работы по знаниям. Он установил новый высокий балл на последнем экзамене человечества с 44,4 с использованием методов параллельного развертывания и достиг 27,4% на сложном эталонном эталоне FrontierMath.

На электронной таблице он набрал 45,5% — больше, чем удвоение копилота в результате исполнения Excel.

Текущие ограничения и следующие шаги

Некоторые функции, такие как генерация слайд-шоу, все еще находятся в бета-версии и могут казаться основными в форматировании или немного различаются между предварительными просмотрами приложения и экспортируемыми файлами.

OpenAI активно тренирует следующую итерацию этой функции для улучшения лака и макета.

Запуск агента CHATGPT сигнализирует о том, как пользователи взаимодействуют с ИИ — от задания вопросов для назначения полных задач.

С помощью своей способности рассуждать, действовать и производить результаты, Openai делает ставку на то, что пользователи все чаще хотят, чтобы ИИ не только помогать им, но и работать на них. Хотя компания подчеркивает, что агент все еще развивается, она рассматривает этот запуск как основу для более интерактивного, ориентированного на действия будущего для ИИ.

Источник

Новости

Blaxel приносит 7,3 млн. Долл. США, чтобы построить «AWS для агентов искусственного интеллекта» после обработки миллиардов запросов агентов

admin 18.07.2025

admin

Blaxel, облачная инфраструктура Blaxel, специально предназначенная для агентов искусственного интеллекта, собрала 7,3 млн. Долл. США в качестве семянного финансирования во главе с первым раундом Capital, сообщила компания в четверг. Финансирование поступило всего через месяц после того, как команда из шести соучредителей закончила партию Y Combinator Spring 2025, подчеркивая аппетит инвесторов к инфраструктурным пьесам на быстро расширяющемся рынке агентов по ИИ.

Компания, базирующаяся в Сан-Франциско, делает ставку на то, что нынешнее поколение облачных провайдеров-Amazon Web Services, Google Cloud и Microsoft Azure-в основном не соответствуют новой волне автономных систем ИИ, которые могут предпринять действия без вмешательства человека. Эти агенты искусственного интеллекта, которые обрабатывают все, от управления календарями до генерации кода, требуют совершенно иной инфраструктуры, чем традиционные веб -приложения, созданные для пользователей.

«Текущие облачные провайдеры были разработаны для Web 2.0, программного обеспечения как эпохи услуг»,-сказал Пол Синай, соучредитель и генеральный директор Blaxel, в эксклюзивном интервью VentureBeat. «Но с этой новой волной агентского искусственного интеллекта мы считаем, что существует необходимость в новом типе инфраструктуры, которая посвящена агентам искусственного интеллекта».

Почему AWS и Google Cloud не были созданы для автономных агентов ИИ

Время отражает более широкий сдвиг в корпоративных вычислениях, поскольку компании все чаще используют агенты искусственного интеллекта для обслуживания клиентов, обработки данных и автоматизации рабочих процессов. В отличие от традиционных приложений, в которых базы данных расположены вместе с веб -серверами в предсказуемых шаблонах, агенты искусственного интеллекта создают уникальные сетевые проблемы, подключаясь к языковым моделям в одном регионе, API в другом облаке и основаниях знаний в других местах — все в то время как пользователи ожидают мгновенных ответов.

Blaxel уже продемонстрировал значительную тягу, обрабатывая миллионы запросов агентов в день в 16 глобальных регионах к концу их партии комбинатора Y. Один клиент работает более 1 миллиарда секунд времени выполнения агента, чтобы обработать миллионы видео, представляющих шкалу, которая иллюстрирует требования инфраструктуры компаний, связанных с AI-Pirst.

«Одним из наших клиентов является обработка воспроизведения сеансов, чтобы позволить менеджерам продуктов лучше понять, как пользователь поведение их продукта», — объяснил Синаи. «Им необходимо обрабатывать миллионы повторений сеансов каждый месяц. Таким образом, он представляет миллионы минут сеансов. Они используют нашу агентскую инфраструктуру для обработки этих повторных ресурсов и предоставления понимания менеджеров по продуктам».

Подход компании сосредоточен на предоставлении инфраструктуры, которой могут работать агенты искусственного интеллекта, а не требовать от администраторов человека. Это включает в себя виртуальные машины с песочницей, которые загружаются менее чем в 25 миллисекунд, автоматическое масштабирование на основе моделей активности агента, и API, предназначенные для использования непосредственно систем ИИ, а не человеческие разработчики.

Как шесть соучредителей с успешным планом выхода, чтобы взять на себя большие технологии

Необычная шестифункциональная структура Blaxel проистекает из общего опыта команды и продажа предыдущей компании OVHCloud, крупнейшему в Европе облачным провайдером. Эта компания стала всем набором продуктов Analytics в OVH, предоставив команде из первых рук опыт работы с проблемами облачной инфраструктуры, так и успешными выходами.

«Я знаю, что это звучит необычно, довольно большая команда. Мы не подходили точно на сцену для демонстрационного дня», — сказал Синаи, ссылаясь на фирменное событие комбинатора Y. «Но мы уже сделали это. Моя предыдущая компания, которую я продал OVH Cloud, мы также были шестью соучредителями».

В состав команды входят Чарльз Дрейпье, которого Шинаи знает более 15 лет, вместе с соучредителями Кристофом Плуджу, Николасом Лекомте, Томасом Крюшет и Матис Джоффре. Их коллективный опыт охватывает инфраструктуру, инструменты разработчиков и инженерию платформы — критический опыт конкуренции с техническими гигантами с практически неограниченными ресурсами.

«Я думаю, что сейчас важно быть шестью, потому что у нас много амбиций», — сказал Синаи. «То, что мы делаем, — это создание этого следующего поколения облачных вычислений для этой новой агентской эпохи».

Что отличает Blaxel на рынке конкурентной облачной инфраструктуры

Рынок облачной инфраструктуры, как известно, является конкурентоспособным, с AWS командует примерно одной трети доли рынка и более новыми игроками, такими как Modal, Replicate и Runpod, нацеленный на рабочие нагрузки искусственного интеллекта. Блаксел различает себя, сосредотачиваясь специально на агентах ИИ, а не на моделие или обучении.

«Большинство упомянутых вами конкурентов решают очень сложную проблему, которая связана с выводом — как вы можете размещать свою модель, как вы можете сделать эти модели как можно быстрее, с точки зрения количества токенов», — сказал Синаи. «Но не так много людей, работающих над инфраструктурой для агентов, и это именно то, что мы делаем».

Платформа компании включает в себя три основных компонента: хостинг агента для развертывания систем ИИ в качестве без сервера серверов MCP (протокол контекста модели) для подключения агентов к внешним инструментам и унифицированный шлюз для доступа к нескольким моделям искусственного интеллекта. Инфраструктура предназначена для решения переменных требований ресурсов агентов искусственного интеллекта, что может потребовать минимальной вычислительной мощности при ожидании ответов, но требует значительных ресурсов при активной обработке.

Функции безопасности и соблюдения предприятий целевой регулируемых отраслей промышленности

Несмотря на то, что Blaxel внедрил меры по обеспечению безопасности, первых, в младшем AI-Pirst Companies, включая соответствие SOC2 и HIPAA. Платформа предлагает контроль над проживанием данных, которые позволяют клиентам ограничивать рабочие нагрузки в конкретные географические регионы, критические для компаний в регулируемых отраслях.

«Мы предоставляем политическую структуру, в которой вы можете прикрепить, например, к рабочей нагрузке, чтобы сказать, этот агент не может работать за пределами этих подмножеств регионов», — объяснил Синаи. «Вы можете прикрепить политику, чтобы сказать, что этот агент не может работать за пределами Соединенных Штатов, поэтому вы уверены, что этот агент обработает данные только в выбранных вами регионах».

Этот подход отражает убеждение компании в том, что даже компании ИИ на ранней стадии нуждаются в надежной практике инфраструктуры, потому что они строят предприятия завтрашнего дня. «Мы считаем, что очень важно иметь, даже для молодых компаний лучшую инфраструктуру с лучшими практиками, потому что они станут предприятиями», — сказал Синай.

Ценообразование платежного платежа обеспечивает экономию средств на 50% на традиционные без сервера

Blaxel принял модель ценообразования платежного выхода, аналогичную установленным облачным провайдерам, отходя от первоначального подхода по подписке после проверки рыночного спроса во время их партии комбинатора Y. Модель взимает клиенты только тогда, когда их агенты активно обрабатывают задачи, закрывая инфраструктуру в течение периодов простоя для оптимизации затрат.

«Мы предоставляем инфраструктуру, которая вращается всего за несколько миллисекунд и закрывается всего за одну секунду», — сказал Синаи. «Таким образом, вы просто платите за время, когда ваш агент на самом деле что -то обрабатывает. Когда ваш агент ждет чего -то другого, вам не нужно платить за это, потому что мы закрываем это».

Подход уже обеспечил экономию затрат для клиентов, причем один клиент достиг 50% снижения затрат по сравнению с типичными без серверными решениями при обработке терабайт данных ежемесячно.

Gartner предсказает, что 75% приложений будут использовать агенты искусственного интеллекта к 2028 году

Инвестиции поступают, поскольку отраслевые аналитики предсказывают взрывной рост в принятии агентов искусственного интеллекта. Gartner прогнозирует, что 75% разработки приложений будут включать агентов по ИИ к 2028 году, хотя Sinaï считает, что нынешнее принятие предприятия остается в значительной степени экспериментальным.

«Прямо сейчас большинство компаний, работающих активно в производстве, являются в основном небольшими компаниями, а не корпоративными компаниями», — сказал он. «Таким образом, мы действительно сосредотачиваемся на том, чтобы служить им точно так же, как и большие поставщики облаков в прошлом».

Стратегия отражает то, как Amazon Web Services изначально сосредоточилась на стартапах и компаниях, ориентированных на разработчиков, прежде чем распространяться до корпоративных клиентов. Blaxel планирует следовать аналогичному пути, используя 7,3 млн. Долл. США для расширения своей программной платформы, прежде чем потенциально перейти на пользовательскую оптимизацию аппаратного и центра обработки данных.

«Очевидно, что семи миллионов недостаточно для создания центров обработки данных, но я думаю, что важно шаг за шагом», — сказал Синаи. «Будучи уверены, что сейчас у нас есть лучшие интерфейсы, которые мы можем предоставить нашим клиентам, лучшие услуги для их агентов, а затем в более глубокую оптимизацию инфраструктуры».

Дорожная карта компании включает в себя такие функции, как снимки, разбрызгивание для экспериментов агента, автоматические возможности отказоустойчивости и более глубокую оптимизацию для огромного масштаба, которую они ожидают. В преддверии сотен миллиардов агентов искусственного интеллекта в ближайшие десятилетия Блаксель видит возможность построить инфраструктуру, предназначенную для этой новой вычислительной парадигмы с нуля.

«Мы считаем, что существует огромная экономика, которая начинается вокруг агентов», — сказал Синаи. «Будут сотни миллиардов агентов искусственного интеллекта, и инфраструктура, которую мы имеем сегодня, не была разработана для этой новой волны».

Раунд финансирования включал участие в комбинаторе Y Combinator, Liquid2, Transpose и Angel Investors, которые разделяют видение компании в специально построенной агентской инфраструктуре. По мере того, как агенты AI переходят от экспериментальных инструментов к производственным системам, обрабатывая критические бизнес -процессы, специализированный подход Blaxel может позиционировать его для получения значительной доли рынка в том, что может стать следующей основной категорией облачных вычислений.

Источник

Новости

Slack становится умнее: новые инструменты AI суммируют чаты, объясните жаргон и автоматизируйте работу

admin 17.07.2025

admin

Slack разрабатывает широкий спектр функций искусственного интеллекта, которые обещают устранить рутинные задачи и превратить платформу обмена сообщениями в центральный центр для производительности предприятия, отмечая прямую задачу владельца Salesforce для доминирования Microsoft на рабочем месте.

Объявления, которые должны развернуться в течение ближайших месяцев, включают помощь в написании AI, встроенную непосредственно в функцию Canvas Slack, объяснения контекстуальных сообщений, автоматизированное идентификацию элемента действия и возможности поиска предприятия, которые охватывают несколько подключенных бизнес-приложений. Эти шаги становятся одновременно Salesforce одновременно ограничивают внешние компании по искусственному искусству, создавая подход к саду с стеной, который отражает более широкие тенденции отрасли в отношении консолидации платформы.

«В отличие от некоторых инструментов искусственного интеллекта, которые находятся вне потока работы, AI Slack появляется там, где происходит работа — в разных разговорах, решениях и документации», — сказал Шалини Агарвал, вице -президент Slack Product в Salesforce, в эксклюзивном интервью VentureBeat. «Ключевым отличием является контекст, который приходит в форме структурированных и неструктурированных данных в Slack».

Время подчеркивается усиливающая конкуренция на рынке совместной работы предприятий в 45 миллиардов долларов, где платформа Microsoft Teams и ее помощник Copilot AI приобрели значительную поддержку против Slack, поскольку Salesforce 27,7 млрд. Долл. США приобретения в сфере сообщений в 2021 году. Google также продвигает свои дуэты по приложениям по рабочим пространствам, создавая трибуческие битвы в области Google, которые становятся в Google-Lize-Lizing, ведущие ведущие в карту.

Как работает контекстный ИИ Slack в разговорах на рабочем месте

Новые возможности Slack отходят от традиционных моделей помощника искусственного интеллекта, которые требуют, чтобы пользователи активно предпринимали помощи. Вместо этого платформа будет активно выявлять соответствующую информацию и автоматизировать рутинные задачи в рамках существующих рабочих процессов.

Помощь в написании искусственного интеллекта, вскоре запустившаяся в рамках функции Canvas Slack, позволит командам автоматически генерировать брифины проекта из беседы, извлекать элементы действий из мозгового штурма и примечания к переформатированию в структурированные обновления. В сочетании с существующей транскрипцией собрания Slack в AI в Гуддле эта функция создает сквозной рабочий процесс документации.

«ИИ должен чувствовать себя легким и плавным, и вам не нужно усердно работать, чтобы использовать его», — сказал Агарвал VentureBeat. «С момента выпуска ИИ в Slack клиенты суммировали более 600 миллионов сообщений, сэкономив коллективные 1,1 миллиона часов у пользователей».

Возможно, более интригующе, Slack представит объяснения контекстуальных сообщений, которые активируются, когда пользователи будут зависать над незнакомыми терминами, аббревиатурами или ссылками на проект. Эта функция опирается на уникальный словарный запас и историю разговоров организации и историю разговоров, хранящихся в Slack, потенциально решает постоянный вызов совместной работы и совместной работы по перекрестной команде.

«Когда -либо сталкивался с незнакомым аббревиатурой или кусочком жаргона в слабым сообщении? В тот момент путаницы, поиска или просята, замедляет все», — отметила компания в своем объявлении.

Поиск предприятия становится новым полем битвы для данных на рабочем месте

Центральным элементом стратегии искусственного интеллекта Slack является поиск предприятия, который теперь обычно доступен, который позволяет пользователям запросить информацию в подключенных приложениях, включая Salesforce, Microsoft Teams, Google Drive, Confluence и Box из одного интерфейса в пределах Slach.

По данным исследования Slack, эта возможность рассматривает стойкую утечку производительности на современных рабочих местах, где работники тратят около 41% своего времени на повторяющиеся задачи, такие как поиск информации в рамках отключенных систем. Позиционируя Slack в качестве единого поискового интерфейса для предприятий, Salesforce делает смелую игру, чтобы стать основным центром рабочего пространства для работников знаний.

Вместо того, чтобы строить соединения между приложениями между приложениями, Slack позиционирует себя как универсальный переводчик для информации на рабочем месте. Этот подход признает суровую реальность: большинство организаций признали, что их данные останутся разбросанными по десяткам приложений, но им отчаянно нужен лучший способ найти и использовать эту информацию.

Для ИТ -отделов Slack обещает минимальную сложность развертывания. «Как правило, это должен быть легкий подъем для ИТ -команд», — сказал Агарвал. «Разъемы будут вне коробки, когда они станут доступны. Как только администраторы включают приложение, а пользователи аутентифицируют его, результаты будут доступны немедленно».

Почему Salesforce блокирует конкурентов искусственного интеллекта от доступа к данным Slack

Несмотря на то, что Slack открывает свои возможности поиска для подключенных приложений клиентов, Salesforce агрессивно ограничивает то, как внешние компании, занимающиеся ИИ, получают доступ к данным Slack. В мае компания внесла изменения в свои условия обслуживания API, чтобы запретить объемный экспорт данных и явно запретить использование данных Slack для обучения крупных языковых моделей.

Этот шаг влияет на сторонние поисковые компании, такие как Glean, которые индексировали слабые разговоры наряду с другими источниками данных предприятия для обеспечения единого поискового опыта. В соответствии с новыми ограничениями такие компании могут получить доступ к данным Slack только через поисковые API в реальном времени со значительными ограничениями.

Salesforce делает рассчитанную азартную игру. Ограничивая доступ к данным Slack, компания делает ставку на то, что ее собственные возможности ИИ окажутся выше внешних альтернатив. Но корпоративные клиенты последовательно показывают, что предпочитают выбор и гибкость в отношении принудительного блокировки поставщика. Если конкурирующие платформы искусственного интеллекта обеспечивают значительно лучшие результаты, используя данные из других источников, Salesforce рискует подталкивать клиентов к альтернативным платформам обмена сообщениями, которые предлагают более открытую интеграцию.

Ограничения подчеркивают, насколько ценными стали данные разговора на рабочем месте. С более чем 5 миллиардами сообщений, которые еженедельно обменивались на Slack, платформа содержит то, что Агарвал описывает как «историю вашей компании, и всю информацию между командами и проектами».

Эти разговорные данные предлагают что-то уникальное в ландшафте программного обеспечения Enterprise: неструктурированная, богатая контекстом информация о том, как на самом деле выполняется работа, а не официальная документация о том, как это должно быть сделано.

Проблемы безопасности предприятия стимулируют функции доверия и соответствия ИИ

Salesforce создал свои возможности ИИ в отношении того, что он называет «Трастовым уровнем Эйнштейна», подчеркивая, что данные о клиентах никогда не покидают инфраструктуру компании или поезжают внешние модели искусственного интеллекта. В подходе рассматриваются предприятия по поводу суверенитета данных, которые замедлили принятие ИИ в регулируемых отраслях.

«Защита данных наших клиентов является главным приоритетом Slack», — сказал Агарвал. «Данные клиентов остаются на месте, Slack не делится данными клиентов с поставщиками LLM, а Slack не использует данные клиентов для обучения LLMS».

Функции ИИ на платформе наследуют существующие контроли безопасности в области обеспечения безопасности Slack Slack, в том числе поддержку соответствия FedRamp, управление ключами шифрования и международные требования к месту жительства данных. Результаты поиска автоматически уважают существующие разрешения пользователей между подключенными приложениями, предотвращая несанкционированное воздействие данных.

Ранние результаты клиентов показывают измеримый рост производительности от функций искусственного интеллекта

Ранние результаты клиентов предполагают значимый рост производительности, хотя размер выборки остается ограниченным. Внутренняя команда Salesforce сообщает, что его агент по искусственному искусству прошел более 18 000 разговоров в течение 3500 пользователей за шесть месяцев, что потенциально экономит эквивалент восьми рабочих работников на полную ставку ежегодно.

Другие клиенты сообщают о аналогичных показателях. OpenTable обработала 73% веб -запросов ресторана, используя AG AgentForce AgentForce Salesforce всего за три недели, в то время как двигатель платежного процессора сократил среднее время обработки на 15% и проецирует 2 миллиона долларов в годовой экономии затрат.

Эти ранние результаты, хотя и многообещающие, должны рассматриваться с соответствующим скептицизмом. Измерения производительности в корпоративном программном обеспечении часто страдают от предвзятости отбора, где только самые успешные реализации генерируют общественные тематические исследования. Истинный тест возможностей Слэка станет в качестве шкалы усыновления за пределами ранних пользователей для основных предприятий с более сложными, менее стандартизированными рабочими процессами.

Как стратегия ИИ Slack сравнивается с Microsoft Copilot и Google Workspace

Объявления позиционируют Slack более непосредственно против комплексной стратегии AI Microsoft, которая включает в себя интеграцию Copilot на платформе Office 365 и Teams. Подход Microsoft приобрел значительную силу предприятия, поскольку компания сообщила, что внедрение Copilot способствует повышению повышения производительности рабочего места по всей клиентской базе.

Тем не менее, подход Slack по разговору может предложить преимущества для организаций, где неформальная коммуникация движет принятием решений. «Разговорной интерфейс Slack и богатый контекст делают его очень естественным домом для агентов искусственного интеллекта», — отметил Агарвал.

Компания также расширяет свою охват через новые стратегии ценообразования, в том числе значительные государственные скидки, которые отражают конкурентную тактику Google. В мае Salesforce объявила о скидках до 90% для федеральных агентств до ноября, заменив фрагментированные переговоры по агентству за агентством.

Будущее автономных агентов ИИ в сотрудничестве на рабочем месте

Видение Агарвала выходит за рамки текущих возможностей к автономным агентам ИИ, которые могут выполнять сложные рабочие процессы в нескольких системах. «Наше видение агентской рабочей операционной системы заключается в том, что каждый может принести ИИ, агенты, данные клиентов, сотрудничество в команде и подключенные системы в одно место, чтобы они могли работать быстрее и умнее», — сказала она.

Компания недавно запустила AgentForce в Slack, привлекая специфические товарищи по команде, которые могут обновлять CRM Records, публиковать в каналах и помогать с участием сотрудников. Ранние результаты показывают, что команда продаж Salesforce экономит 66 000 часов в год благодаря помощи в области искусственного интеллекта с помощью Deal Insights и руководителей.

Поскольку возможности ИИ становятся табличными ставками для предприятия, успех Слэка может зависеть от выполнения, а не от инноваций. Сила платформы заключается в его позиции в качестве фактического стандарта для обмена сообщениями на рабочем месте, предоставляя разговорной контекст, который делает ответы ИИ более актуальными и действенными.

Остается ли это контекстуальное преимущество устойчивым против интегрированной экосистемы Microsoft и опыта поиска Google, остается открытым вопросом. Но на данный момент Salesforce делает ставку на то, что будущее работы происходит в разговорах — и что тот, кто контролирует эти разговоры, контролирует рынок искусственного интеллекта на рабочем месте.

Новые функции искусственного интеллекта будут включены во все платные планы по слабым, с расширенными возможностями, зарезервированными для подписок более высокого уровня. Клиенты Enterprise+ получат полный опыт ИИ, включая контроль за поиском и управления предприятиями, предназначенные для крупномасштабного развертывания.

Для предприятия, принимающих решения, оценивающие инструменты совместной работы AI, подход Slack предлагает убедительную альтернативу стратегии интеграции Microsoft в масштабе. Вопрос заключается в том, может ли контекстный ИИ в разговорах конкурировать с более широким уровнем производительности, обещанным помощниками искусственного интеллекта, встроенными по всем программным экосистемам.

Источник

Новости

Доходы от кода Claud

admin 17.07.2025

admin

Anpropic объявил сегодня, что он разрабатывает комплексную аналитическую панель для своей помощника по программированию Claude Code AI, решает одну из самых насущных проблем для лидеров корпоративных технологий: понимание того, фактически окупаются их инвестиции в инструменты кодирования искусственного интеллекта.

Новая панель инструментов предоставит инженерным менеджерам подробные показатели того, как их команды используют Claude Code, включая принятые строки кода, показатели приема предложений, общие активности пользователя с течением времени, общие расходы с течением времени, средние ежедневные расходы для каждого пользователя и средние ежедневные строки кода, принятые для каждого пользователя. Эта функция появляется в качестве компаний, которые все чаще требуют конкретных данных, чтобы оправдать свои расходы искусственного интеллекта среди более широкого стремления к измерению доходности искусственного интеллекта на инвестиции.

«Когда вы наблюдаете за большой инженерной командой, вы хотите знать, что делают все, и это может быть очень сложно», — сказал Адам Вольф, который управляет командой Claud Code в Антрике и ранее занимал должность руководителя инженерии в Робинстве. «Трудно измерить, и мы видели несколько стартапов в этом пространстве, пытающихся решить это, но важно получить представление о том, как люди используют инструменты, которые вы им даете».

Диастерная панель рассматривает фундаментальную проблему, с которыми сталкиваются технологические руководители: поскольку инструменты разработки на основе AI становятся стандартными в разработке программного обеспечения, менеджеры не имеют видимости, в которой команды и частные лица получают больше всего выгодно от этих дорогих премиальных инструментов. Ценообразование Claude Code начинается с 17 долларов в месяц для отдельных разработчиков, а корпоративные планы достигают значительно более высоких цен.

Скриншот новой аналитической панели Analytics для Claude для Claude Code показывает метрики использования, данные о тратях и индивидуальную деятельность разработчика для команды инженеров в течение месяца. (Кредит: антроп)

Компании требуют, чтобы их инвестиции в кодирование искусственного интеллекта работают

Это отмечает одну из самых запрашиваемых функций Anpropic от корпоративных клиентов, сигнализируя о более широком корпоративном аппетите для инструментов подотчетности искусственного интеллекта. Панель инструментов будет отслеживать коммиты, привлекать запросы и предоставлять подробные поломки деятельности пользователями и затратами — данные, которые, как говорят инженерные лидеры, имеют решающее значение для понимания того, как ИИ меняет рабочие процессы разработки.

«Разные клиенты на самом деле хотят делать разные вещи с этой стоимостью», — объяснил Вольф. «Некоторые были похожи на, эй, я хочу потратить столько, сколько смогу на эти инструменты для обеспечения искусственного искусства, потому что они видят в этом множитель. Некоторые, очевидно, разумно хотят убедиться, что они не взорвут свои расходы».

Эта функция включает в себя элементы управления доступа на основе ролей, что позволяет организациям настроить, кто может просматривать данные об использовании. Вольф подчеркнул, что система фокусируется на метаданных, а не на фактическом содержании кода, устраняя потенциальные проблемы конфиденциальности в отношении наблюдения за сотрудниками.

«Это не содержит никакой информации о том, что люди на самом деле делают», — сказал он. «Это скорее мета, например, сколько они используют ее, вы знаете, как, например, какие инструменты работают? Какую скорость принятия инструментов вы видите — вещи, которые вы бы использовали, чтобы настроить свое общее развертывание».

Код Claud

Запуск на панели панели наступает на фоне необычайного роста для Claude Code, так как Anpropic представила свои модели Claude 4 в мае. Согласно данным компании, на платформе на платформе наблюдается рост активной базы пользователей на 300%, а увеличение выручки-более 5,5 раза-более 5,5 раз.

«Claude Code находится в броске», — сказал Вольф Venturebeat. «Мы видели рост дохода в пять с половиной раза с тех пор, как в мае мы запустили модели Claude 4. Это дает вам ощущение потока спроса, которое мы видим».

Список клиентов включает в себя известные технологические компании, такие как Figma, Rakuten и Intercom, представляющие сочетание инструментов дизайна, платформ электронной коммерции и поставщиков технологий обслуживания клиентов. Вольф отметил, что многие дополнительные корпоративные клиенты используют Claude Code, но еще не предоставил разрешение на публичное раскрытие.

Траектория роста отражает более широкий импульс отрасли вокруг помощников по кодированию искусственного интеллекта. Копилот Github, инструмент программирования Microsoft, национальный AI, собрал миллионы пользователей, в то время как новые участники, такие как Cursor и недавно приобретенные Windsurf, получили тягу среди разработчиков, стремящихся к более мощной помощи ИИ.

Стратегия ценообразования премиум

Claude Code позиционирует себя как предприятие премиального предприятия на все более многолюдном рынке инструментов кодирования ИИ. В отличие от некоторых конкурентов, которые сосредоточены в первую очередь на завершении кода, Claude Code предлагает то, что антропические вызовы «агентские» возможности — возможность понимать целые кодовые базы, вносить скоординированные изменения в нескольких файлах и работать непосредственно в существующих рабочих процессах разработки.

«Это не дешево. Это премиум -инструмент», — сказал Вольф. «Покупатель должен понимать, что он получает за это. Когда вы видите эти метрики, довольно ясно, что разработчики используют эти инструменты, и они делают их более продуктивными».

Компания нацелена на организации с выделенными группами AI и существенными операциями по развитию. Вольф сказал, что наиболее технические компании являются ведущими ведущими внедрением, особенно с внутренними командами, сосредоточенными на интеграции искусственного интеллекта.

«Конечно, компании, у которых есть свои собственные команды по обеспечению эффективности искусственного интеллекта, они любят код Клода, потому что он настолько настраивается, что его можно развернуть с правильным набором инструментов и подсказок и разрешений, которые очень хорошо работают для их организации», — пояснил он.

Традиционные отрасли с крупными командами разработчиков проявляют растущий интерес, хотя сроки усыновления остаются дольше, поскольку эти организации ориентируются на процессы закупок и стратегии развертывания.

Ассистент Ай -кодирования рынка нагревается, когда технические гиганты сражаются за разработчиков

Аналитическая панель инструментов ставит антропную конкуренцию с обратной связью с предприятиями по поводу измерения эффективности инструмента ИИ — задачи, стоящей перед всем рынком ассистента по кодированию ИИ. В то время как конкуренты, такие как Github Copilot и новые участники, сосредоточены главным образом на производительности отдельных разработчиков, Anpropic делает ставку на то, что корпоративные клиенты нуждаются в комплексной организационной информации.

Amazon недавно запустила Kiro, собственную среду кодирования Claude, подчеркивая растущую конкуренцию в инструментах разработки искусственного интеллекта. Microsoft продолжает расширять возможности Github Copilot, в то время как Google только что приобретает нанятого генерального директора Windsurf Varun Mohan и членов команды ключевых сделок в размере 2,4 миллиарда долларов, чтобы поддержать свои усилия по агентскому кодированию.

Вольф считает, что на рынке есть место для нескольких решений, отмечая, что многие разработчики используют несколько инструментов кодирования ИИ в зависимости от конкретных задач. «Люди, которые сейчас делают лучше всего, — это те, кто пробует все и использует точно правильный инструмент для работы», — сказал он.

Автономные агенты ИИ могут изменить то, как строится программное обеспечение

Помимо немедленных показателей производительности, Вольф видит Код Клода как часть более широкого сдвига в сторону «агентского» разработки программного обеспечения, где системы ИИ могут выполнять сложные многоэтапные задачи с минимальным наблюдением за человеком.

«Одна тенденция, которую мы начинаем видеть, заключается в том, что агент становится доминирующим режимом, как вы хотите взаимодействовать с LLM», — сказал он. Клиенты все чаще опираются на комплект разработки программного обеспечения Claude Code для создания пользовательских рабочих процессов, которые обрабатывают все, от истории разговоров до интеграции инструментов и настройки безопасности.

Аналитическая панель панели предоставляет организациям для измерения этого перехода. По мере того, как агенты ИИ становятся более способными к автономным задачам по разработке программного обеспечения, предприятиям лидерам потребуются всесторонние данные, чтобы понять, как эти системы влияют на их процессы разработки.

Запуск является частью более широкой тенденции AI Enterprise, где организации выходят за рамки пилотных проектов, требующих подробной аналитики и измерений ROI для их инвестиций в области искусственного интеллекта. По мере того, как инструменты кодирования искусственного интеллекта превращаются из экспериментальных функций до основной инфраструктуры развития, видимость их использования и эффективности становится все более важной для лидеров технологий.

Для отрасли, основанной на измерении всего, от времени безотказной работы до кода, возможность, наконец, измерить влияние ИИ на производительность разработчиков может оказаться столь же ценной, как и сами инструменты искусственного интеллекта.

Источник

Новости

Исследование Google показывает, что LLMS отказывается от правильных ответов под давлением, угрожая многообразным системам искусственного интеллекта

admin 16.07.2025

admin

Новое исследование исследователей в Google Deepmind и Университетского колледжа Лондона показывает, как формируют, поддерживают, поддерживают и теряют уверенность в своих ответах. Результаты показывают поразительное сходство между когнитивными предубеждениями LLMS и людей, а также подчеркивают резкие различия.

Исследование показывает, что LLM могут быть чрезмерно уверенными в своих собственных ответах, но быстро теряют эту уверенность и меняют свое мнение, когда представляется контраргумент, даже если контраргумент неверен. Понимание нюансов такого поведения может иметь прямые последствия того, как вы создаете приложения LLM, особенно разговорные интерфейсы, которые охватывают несколько ходов.

Тестирование уверенности в LLMS

Критическим фактором в безопасном развертывании LLM является то, что их ответы сопровождаются надежным чувством доверия (вероятность того, что модель присваивает токен ответа). Хотя мы знаем, что LLM могут создать эти оценки доверия, степень, в которой они могут использовать их для руководства адаптивным поведением, плохо охарактеризована. Существуют также эмпирические доказательства того, что LLMS может быть чрезмерно уверенным в своем первоначальном ответе, но также быть очень чувствительными к критике и быстро становятся недостительными в том же выборе.

Чтобы исследовать это, исследователи разработали контролируемый эксперимент, чтобы проверить, как LLM обновляют свою уверенность, и решить, следует ли изменять свои ответы, когда они представляются внешними советами. В эксперименте «отвечающий LLM» был впервые задан вопрос бинарного выбора, такой как определение правильной широты для города из двух вариантов. После того, как он сделал свой первоначальный выбор, LLM получил советы из вымышленного «совета LLM». Этот совет поступил с явным рейтингом точности (например, «этот совет LLM точен 70%») и будет либо согласен, или оставаться нейтральным в отношении первоначального выбора ответа LLM. Наконец, отвечающего LLM попросили сделать свой окончательный выбор.

Пример испытания достоверности в LLMS (источник: arxiv) — *Пример теста доверия в LLMS Источник: arxiv*

Ключевой частью эксперимента было контроль, был ли собственный первоначальный ответ LLM для него во время второго, окончательного решения. В некоторых случаях это было показано, а в других это было скрыто. Эта уникальная настройка, невозможно воспроизвести с участниками -участниками, которые не могут просто забыть свой предыдущий выбор, позволила исследователям выделить, как память о прошлом влияет на текущую уверенность.

Базовое условие, где первоначальный ответ был скрыт, а совет был нейтральным, установил, насколько ответ LLM может измениться просто из -за случайной дисперсии в обработке модели. Анализ был сосредоточен на том, как доверие LLM в его первоначальном выборе изменилась между первым и вторым поворотом, давая четкую картину того, как первоначальное убеждение или предварительное, влияет на «изменение ума» в модели.

Чрезмерная уверенность и недостоверность

Исследователи сначала изучили, как видимость собственного ответа LLM повлияла на его тенденцию к изменению своего ответа. Они заметили, что когда модель может видеть свой первоначальный ответ, она показала сниженную тенденцию к переключению по сравнению с тем, когда ответ был скрыт. Этот вывод указывает на конкретный когнитивный уклон. Как отмечает в статье, «этот эффект-тенденция придерживаться своего первоначального выбора в большей степени, когда этот выбор был видим (в отличие от скрытого) во время созерцания окончательного выбора,-тесно связан с явлением, описанным при изучении принятия человеческих решений, выбором, способствующим поддержке выбора».

Исследование также подтвердило, что модели интегрируют внешние советы. Столкнувшись с противоположными советами, LLM показал повышенную тенденцию менять свое мнение и снижение тенденции, когда совет поддерживал. «Этот вывод демонстрирует, что отвечающий LLM соответствующим образом интегрирует направление советов, чтобы модулировать изменение уровня мышления», — пишут исследователи. Тем не менее, они также обнаружили, что модель чрезмерно чувствительна к противоположной информации и в результате выполняет слишком большую достоверную обновление.

*Чувствительность LLM к разным параметрам в доверительном тестировании Источник: arxiv*

Интересно, что это поведение противоречит предвзятости подтверждения, часто наблюдаемого у людей, где люди предпочитают информацию, которая подтверждает их существующие убеждения. Исследователи обнаружили, что LLMS «против избыточного веса, а не поддерживающих советов, как когда первоначальный ответ модели был видим и скрыт от модели». Одним из возможных объяснений является то, что методы обучения, такие как обучение подкреплению от обратной связи с человеком (RLHF), могут побудить модели быть чрезмерно вечными для пользовательского ввода, явления, известного как Sycophancy (которое остается проблемой для лабораторий искусственного интеллекта).

Последствия для корпоративных приложений

Это исследование подтверждает, что системы ИИ не являются чисто логическими агентами, которыми они часто воспринимаются. Они демонстрируют свой собственный набор предубеждений, некоторые напоминают человеческие когнитивные ошибки и другие уникальные для себя, что может сделать их поведение непредсказуемым в человеческих терминах. Для предпринимаемых приложений это означает, что в расширенном разговоре между человеком и агентом ИИ самая последняя информация может оказать непропорциональное влияние на рассуждения LLM (особенно если она противоречит первоначальному ответу модели), что может привести к тому, что он отбрасывает изначально правильный ответ.

К счастью, как также показывает исследование, мы можем манипулировать памятью LLM, чтобы смягчить эти нежелательные предубеждения способами, которые невозможны для людей. Разработчики, создающие многократные разговорные агенты, могут реализовать стратегии для управления контекстом ИИ. Например, длинный разговор может быть периодически суммирован, с ключевыми фактами и решениями, представленными нейтрально и лишены того, какой агент сделал этот выбор. Затем это резюме можно использовать для инициирования нового, сгущенного разговора, предоставляя модель чистым сланцем для разума и помогая избежать предубеждений, которые могут проникать во время расширенных диалогов.

По мере того, как LLM становятся более интегрированными в корпоративные рабочие процессы, понимание нюансов их процессов принятия решений больше не является обязательным. Следующие основополагающие исследования, подобные этому, позволяют разработчикам предвидеть и исправить эти неотъемлемые предубеждения, что приводит к приложениям, которые не просто более способны, но и более надежными и надежными.

Источник