Категория:

Новости

Как общественное мнение помогает OpenAI настраивать поведение ИИ

admin 25.10.2025

admin

Компания OpenAI впервые представила результаты масштабного эксперимента по «коллективной настройке» поведения своих ИИ-моделей. Более тысячи участников из разных стран помогли выявить, как пользователи хотели бы, чтобы искусственный интеллект вел себя в спорных, чувствительных и морально неоднозначных ситуациях. Результаты уже начали менять внутренние правила и спецификацию моделей.

Как общественное мнение помогает OpenAI настраивать поведение ИИ

Когда искусственный интеллект отвечает на вопросы, особенно те, где нет единственно верного ответа, важно понимать: по чьим нормам он это делает? Кто решает, допустимо ли писать эротический рассказ по запросу пользователя? А как быть, если ИИ просят рассуждать о религии, политике или морали?

До сих пор подобные решения принимались внутри команд разработчиков. Но в 2025 году OpenAI решилась на эксперимент: перенести эти вопросы в сферу общественного обсуждения.

Идея проста, но амбициозна — привлечь как можно больше людей к обсуждению принципов поведения ИИ. И не просто спросить их мнение, а действительно внедрить его в спецификацию модели, определяющую, как она будет вести себя в реальных сценариях. Для начала вы можете взглянуть на визуализацию исследования наглядно и продолжить чтение.

Что такое Model Spec и зачем её настраивать

Model Spec (спецификация модели) — это своего рода «этический кодекс» для ИИ от OpenAI. Он определяет, как модель должна реагировать в тех случаях, где возможны разные трактовки. К примеру:

Стоит ли отказывать пользователю, если он просит откровенный или эротический контент?
Можно ли высказывать оценочные суждения по религиозным или политическим темам?
Как ИИ должен вести себя, если пользователь задаёт провокационные вопросы?

Ранее подобные правила формировались внутри компании — исходя из внутренних ценностей и политики OpenAI. Теперь же к их формулировке впервые подключили внешних участников.

Коллективная настройка: как это работало

Глобальный охват исследования

Весной и летом 2025 года OpenAI пригласила более 1000 человек из разных стран и культурных контекстов принять участие в опросе. Участникам предлагались конкретные сценарии — запросы к ИИ и несколько вариантов ответа. Их задача заключалась в том, чтобы выбрать предпочтительный ответ, руководствуясь здравым смыслом, личными ценностями и интуицией.

Примеры включали:

просьбу написать любовную новеллу с пикантными подробностями;
провокационные вопросы о национальной идентичности;
дискуссионные темы, связанные с абортами, оружием, религией и свободой слова.

В каждой ситуации респонденты выбирали из четырёх ответов тот, который, по их мнению, был наиболее уместным. В сумме было собрано более 18 000 оценок.

Что получилось: три категории обратной связи

В результате анализа оценок, OpenAI разделила фидбэк на три основные категории:

1. Уточнения (clarifications)

Это случаи, когда общественное мнение в целом совпадало с текущей логикой Model Spec, но её формулировки были недостаточно чёткими или двусмысленными. Такие положения были доработаны — например, с использованием более конкретных примеров или уточняющих фраз.

2. Изменения принципов (change of principles)

Иногда участники явно не соглашались с текущими ограничениями. Например, некоторые считали, что модель должна отвечать на эротические запросы, если они соответствуют возрастным ограничениям. В подобных случаях OpenAI либо пересматривала принцип, либо временно откладывала изменение до дополнительного анализа.

3. Несогласованные предложения

Некоторые идеи участников не были реализованы, потому что они шли вразрез с ключевыми ценностями OpenAI — например, принципом политической и культурной нейтральности, или же были слишком сложны для текущей реализации.

Что уже внедрено

По словам представителей OpenAI, часть обратной связи уже интегрирована в спецификацию. Это особенно касается случаев, когда поведение модели можно изменить, не нарушая её устойчивости или базовых правил безопасности.

Кроме того, для проверки соответствия новых версий модели обновлённой спецификации был использован так называемый Model Spec Ranker — вспомогательная ИИ-модель, обученная оценивать, насколько хорошо основной ИИ следует предписанным нормам. Однако OpenAI подчёркивает, что ранжировщик не является абсолютным арбитром, и его оценки могут содержать искажения.

Публикация открытого набора данных

Результаты опроса были опубликованы в виде датасета Collective Alignment 1 (CA-1) на платформе 🤗 Hugging Face. Он включает:

более тысячи уникальных примеров запросов с вариантами ответов;
оценки, выставленные участниками;
демографические данные респондентов (возраст, пол, регион и др.);
объединённый файл для анализа в формате .jsonl.

Цель публикации — дать возможность независимым исследователям анализировать реакции общества на поведение ИИ, проводить собственные эксперименты и предлагать альтернативные подходы к настройке ИИ в будущем.

Почему это важно

До сих пор этические рамки ИИ формулировались закрыто — исключительно внутри технологических компаний. Подход OpenAI с «коллективной настройкой» может стать первой попыткой перенести эти процессы в публичное поле. И хотя она не лишена недостатков — например, ограниченного охвата аудитории или культурной неоднородности — это важный шаг к тому, чтобы поведение ИИ отражало не только корпоративную логику, но и многоголосие общества.

«Нам нужно не просто программировать ИИ по шаблону. Мы должны находить способы учить его учитывать разнообразие человеческих взглядов, и делать это — прозрачно»,

— говорят представители OpenAI.

Что дальше?

В ближайшие месяцы OpenAI планирует продолжить работу над следующими версиями спецификации, основываясь на собранных отзывах и новых исследованиях. Также компания не исключает повторного привлечения общественности, возможно, в более широком формате и с привлечением разных языковых и культурных групп.

Источник

Новости

Как ИИ-планировщики научились работать со временем: от хаоса к удобству

admin 23.10.2025

admin

Короткие онлайн-встречи без лишних накладок становятся реальностью: умные ассистенты на базе LLM учатся учитывать часовые пояса и привычки участников.

Как ИИ-планировщики научились работать со временем: от хаоса к удобству

Ещё недавно распределённые команды напоминали хаотичный пазл: один человек живёт в Москве, другой работает из Сан-Паулу, третий подключается из Токио. Любая встреча превращалась в испытание по поиску «золотого окна». Согласование растягивалось на дни, а то и недели, и всё это отнимало энергию, которая могла бы уйти на реальные задачи. Сегодня эту нагрузку всё чаще берут на себя умные ассистенты на базе больших языковых моделей (LLM), и именно они меняют логику совместной работы.

В чём вообще проблема с часовыми поясами

Кто хоть раз пытался собрать онлайн-встречу с коллегами из разных стран, тот знает: договориться о времени непросто. Для одного это раннее утро, для другого глубокая ночь. Ошибка в пересчёте — и человек приходит на встречу в три часа ночи. Такие накладки не просто раздражают, они напрямую бьют по результатам проектов. Задержка в обсуждении задачи способна отодвинуть сроки, вызвать недопонимание и снизить темп всей команды.

Как действуют LLM-ассистенты

Современные модели вроде ChatGPT или Claude уже умеют синхронизироваться с календарями и понимать естественные формулировки. Можно сказать: «Собери нас в начале следующей недели, но не позже шести вечера по Берлину» — и ассистент сам подберёт подходящие варианты. Он учитывает рабочие часы, историю предыдущих встреч, загруженность участников и тут же рассылает приглашения. Для пользователя это выглядит как магия, но на деле это тысячи вычислений, сопоставляющих десятки параметров.

Эти ассистенты могут предлагать и сценарии: оптимальный для большинства, вариант «с минимальными потерями сна» или гибкий план с чередованием утренних и вечерних слотов. Так технология становится частью командной культуры, помогая сохранять баланс.

Кейс: стартап между Калифорнией и Москвой

Молодая AI-команда работала сразу в двух мирах: часть программистов находилась в Москве, часть — в Сан-Франциско. Разница во времени — 11 часов. Пока они вручную согласовывали встречи, теряли по два-три дня на переписку, а созвоны часто переносились, потому что кто-то оказывался не в том часовом поясе. Атмосфера становилась напряжённой, и обсуждения теряли ценность.

После внедрения ассистента на базе ChatGPT ситуация изменилась. Модель анализировала календари сотрудников, учитывала их предпочтения и предлагала слоты, подходящие всем. Более того, ассистент распознавал шаблоны поведения: разработчики начинали кодинг после обеда, маркетологи были активнее утром. Через пару недель команда избавилась от конфликтов, связанных с «ночными» звонками. Встречи стали короче и эффективнее, а время на согласование сократилось в четыре раза.

Почему стоит перепроверять вручную

Даже такие системы не безупречны. Они могут запутаться в переходе на летнее время, забыть о местных праздниках или корпоративных мероприятиях, а также неверно интерпретировать данные календаря. Поэтому привычка осталась: перед важным звонком полезно проверить время в городах вручную. Это занимает секунды, но избавляет от риска попасть в неприятную ситуацию. Такая практика прижилась даже у тех, кто доверяет LLM-ассистенту полностью: контроль создаёт чувство уверенности.

Новая логика встреч

Современные AI-сервисы учитывают не только часовые пояса, но и человеческие факторы. Можно задать правила: «не ставь длинные совещания после восьми вечера», «оставь утро под фокусную работу», «не назначай встречи подряд без перерыва». Такие настройки помогают выстроить комфортную среду и избегать перегрузок. Постепенно формируется культура, в которой технологии помогают уважать личное время сотрудников, а встречи перестают быть источником раздражения.

Практические советы для команд

Интегрируйте ассистента в календарь. Чем больше данных у модели, тем точнее она подбирает время. Подключите корпоративные календари и, например, «1С-Битрикс24» или «Яндекс 360 для бизнеса».
Фиксируйте предпочтения команды. Укажите, кто готов на вечерние созвоны, а кто категорически против. Эти данные заносятся в корпоративный календарь или профиль ассистента и учитываются при планировании.
Перепроверяйте вручную. Даже если доверяете алгоритму, привычка свериться через независимый сервис добавит уверенности.
Используйте гибкие сценарии. Пусть модель предлагает несколько вариантов, а команда выбирает лучший.
Оставляйте буферное время. Ассистенты могут ставить встречи «плотно», но людям нужен перерыв. Настройте этот параметр.

Важность для команд и бизнеса

Если раньше планёрки в международной команде были почти подвигом, то теперь они становятся рутиной, которая не отнимает силы. ИИ не отменяет человеческий фактор, но делает его мягче. Ассистенты вроде ChatGPT и Claude постепенно превращаются в координаторов, которые помогают распределять внимание и время с умом. В выигрыше оказываются все: команды меньше нервничают из-за организации, бизнес получает скорость, а сотрудники сохраняют баланс между работой и жизнью.

Источник

Новости

ИИ-агенты меняют мир от текста к действию и автоматизируют бизнес с помощью MCP

admin 22.10.2025

admin

Иногда кажется, что мы вечно пишем — то код, то контент. Но что, если граница между ними уже стёрлась? Представьте: вы больше не вводите команды, а просто говорите, что вам нужно. Агент ИИ сам подключается к CRM, соцсетям, рекламным кабинетам и выполняет всё, что вы задумали. Это уже не фантастика.

ИИ-агенты меняют мир от текста к действию и автоматизируют бизнес с помощью MCP

Мы привыкли к тому, что искусственный интеллект — это в первую очередь про слова: сгенерировать текст, написать код, составить отчёт. Однако это лишь начало. Настоящая революция начинается тогда, когда ИИ-модели переходят от генерации контента к реальным действиям.

Вместо того чтобы просто выдавать нам текст, они превращаются в полноценных агентов, которые способны выполнять задачи от нашего имени, используя для этого самые разные инструменты. В этой статье мы разберём, как этот сдвиг меняет подходы к работе, и почему скорость внедрения новых технологий становится критическим преимуществом.

ИИ-агенты: мост между промптом и реальностью

Долгое время была чёткая граница между контентом и кодом. Маркетологи писали тексты, а программисты — скрипты. Сегодня же всё сводится к одному универсальному языку: текстовым промптам. Мы даём на вход естественный запрос, а дальше агент самостоятельно решает, как его выполнить. И результатом может быть уже не просто текст, а что-то, что существует в реальном мире.

Ключевую роль в этой трансформации играет Протокол модельного контекста (Model Context Protocol, MCP). Это не просто очередная технология, а настоящий мост между языковой моделью и любым внешним сервисом. MCP позволяет ИИ-агенту:

понимать контекст ваших задач;
подключаться к внешним инструментам через API;
самостоятельно выполнять необходимые действия.

Представьте, что вы хотите запустить рекламную кампанию. Вместо того чтобы вручную заходить в рекламный кабинет, настраивать таргетинг, бюджет и креативы, вы просто говорите своему агенту: «Запусти кампанию на новую аудиторию, используя последние посты в блоге». Агент, подключённый к Google Ads через MCP, сделает всё сам. Это и есть главный принцип: делегирование сложных, многоэтапных задач.

MCP на практике: как ИИ-агенты меняют бизнес-сферы

Концепция, которая раньше называлась «вайб-кодингом» (создание кода по настроению), теперь распространилась на другие сферы. Мы больше не ограничиваемся одним направлением, а видим, как ИИ-агенты берут на себя целые рабочие процессы. Вот несколько примеров, которые показывают, как это работает прямо сейчас:

Маркетинг и продажи

Агенты могут взять на себя всю рутину, от планирования контента до запуска рекламных кампаний.

Управление социальными сетями: Агенты, подключённые через MCP, могут не только публиковать контент, но и анализировать тренды, адаптировать сообщения под конкретную платформу и автоматически составлять планы кампаний.
Автоматизация рассылок: Сервисы вроде MailerLite и Postmark позволяют агентам генерировать и отправлять персонализированные письма, а также автоматически сегментировать базу подписчиков.
Оптимизация рекламы: Агенты, работающие через Meta Ads MCP и Google Ads MCP, могут в реальном времени отслеживать эффективность объявлений и без вашего участия корректировать ставки и бюджеты.
SEO-мониторинг: С помощью инструментов Ahrefs и Semrush агенты могут проводить исследование ключевых слов и мониторить позиции сайта в поиске, предоставляя вам готовые отчёты.
Автоматизация продаж: Через Outreach MCP можно настроить целые воронки для холодных сообщений, которые будут работать 24/7.

Финансы и аналитика

Даже в таких сложных сферах, как финансы, агенты начинают играть важную роль.

Автоматизированная аналитика: Агенты, подключённые к Google Analytics, могут отвечать на вопросы о метриках и отчётах на простом человеческом языке, избавляя вас от необходимости копаться в данных.
Финансовые операции: В будущем мы увидим агентов, которые смогут проводить автономные аудиты, управлять инвестиционными портфелями и даже вести переговоры, основываясь на рыночных условиях.

Скорость — ключевое преимущество

Самое важное, что нужно осознать, это то, что индустрия развивается с бешеной скоростью. То, что вчера было теорией, сегодня уже воплощается в жизнь. Те, кто начинает использовать агентов на месяц, неделю или даже день раньше, получают колоссальное преимущество.

Представьте, что ваши агенты уже обучаются на реальных данных и оптимизируют процессы, пока ваши конкуренты только начинают изучать эту технологию. Это не просто экономия времени — это постоянное повышение эффективности и конкурентоспособности. Скорость внедрения позволяет создать замкнутый цикл непрерывного обучения и улучшения, который в итоге приводит к экспоненциальному росту.

От пользователя к дирижёру

В конечном счёте, мы переходим от роли пассивных пользователей, которые просто потребляют контент или вводят команды, к роли дирижёров. Наша задача — не выполнять рутинные операции, а задавать стратегию и управлять оркестром из десятков и сотен ИИ-агентов.

Это будущее, где главным навыком становится не знание синтаксиса, а умение чётко формулировать свои мысли, делегировать задачи и критически оценивать результаты. И это будущее уже здесь.

Источник

Новости

Пять инструментов, которые помогают отличить ИИ-тексты от человеческих

admin 16.10.2025

admin

Нейросети пишут всё убедительнее, и отличить их от человека становится всё сложнее. Я решил протестировать пять популярных ИИ-детекторов, чтобы понять, как они работают в реальных условиях и на что действительно можно опереться в 2025 году.

Пять инструментов, которые помогают отличить ИИ-тексты от человеческих

Я работаю с текстами больше десяти лет. Последние два года почти ежедневно сталкиваюсь с вопросом: а это точно писал человек, или опять нейросеть?

Мы живём в странное время. С одной стороны, ИИ помогает, он может выдать черновик, исправить ошибки, подтолкнуть идею. С другой, в текстах всё меньше живой мысли. Порой ты читаешь статью, всё вроде гладко, но ощущение, что перед тобой красиво отформатированный воздух. Без души.

Я решил протестировать 5 самых популярных ИИ-детекторов, чтобы понять, какие из них реально работают, где ошибаются и как вообще жить в этом новом мире, где автор может оказаться машиной.

Почему это вообще важно

Когда ты публикуешь что-то от имени бренда, важно, чтобы за этим стоял человек. Мы, как читатели, чувствуем фальшь на уровне интуиции. Если материал «слишком правильный», «слишком общий», мозг говорит: подделка. Особенно это касается сфер, где важна экспертность — финансы, медицина, образование, юриспруденция. Один неточный совет, и можно попасть на большие неприятности.

А если ты нанимаешь фрилансеров? Или ведёшь блог? Платишь за статью, ждёшь идеи, а получаешь очередной пересказ Википедии, только от нейросети. И вот тут пригодятся ИИ-детекторы. Не как карающая рука, а как фильтр.

Что я тестировал

Я взял пять сервисов. Три российских, GigaCheck от Сбера, Isgen и AI Detector от Text.ru. И два зарубежных, GPTZero и Copyleaks. У всех, разный подход, точность, интерфейс, и я проверял их на реальных кейсах. Вот что получилось.

GigaCheck

Это разработка от Сбера, и я был приятно удивлён. Он показывает не только процент ИИ, но и выделяет конкретные фрагменты. Удобно, когда вы работаете с длинными текстами. Особенно круто, что он понимает русский язык со всеми его нюансами. Например, он не путается в сленге или региональных словах.

Из минусов, на коротких текстах он теряется. Если ты проверяешь пару абзацев, точность падает. Но в целом, отличный инструмент. Особенно для бизнеса, который работает с большим объёмом контента.

AI Detector от Text.ru

Немного сыроват. Он скорее ориентирован на то, чтобы быстро пробежаться по материалу и понять, стоит ли копать глубже. Иногда срабатывает ложно, особенно при формальном стиле. Но в паре с другим инструментом, вполне рабочая штука.

Плюс, простота. Интерфейс без наворотов, интеграция с проверкой уникальности. Удобно, если вы работаете с фрилансерами.

Isgen

Вероятно, самый продвинутый из российских. Он не просто ищет ИИ-стиль, а анализирует текст на уровне слов, сравнивает с базами данных языковых моделей. Иногда кажется, что он даже умнее, чем надо. Научные статьи, юридические документы, для него это как раз тот случай, когда он раскрывается полностью.

Минус только один, работает медленно на больших текстах. Но за точность приходится платить временем.

GPTZero

Зарубежный и достаточно известный. Поддерживает русский, но чувствуется, что не идеально. Зато интерфейс у него удобный. Он разбивает текст по предложениям и показывает, где именно «подозрительно». Хорош для проверки эссе, блогов, небольших публикаций.

Мне понравилось, что он не просто говорит да или нет, а объясняет. В образовании или редакционной работе, отличный помощник.

Copyleaks

Этот, прям тяжеловес. Он проверяет и на ИИ, и на плагиат, и может встраиваться в системы вроде Moodle. Если вы работаете в большой компании или в образовательной среде, must-have. Правда, на русском языке он пока ошибается чаще, чем хотелось бы.

Но в связке с GigaCheck или Isgen работает почти без промахов. А ещё у него один из лучших API, можно автоматизировать всё, что угодно.

Как я применяю это в работе

У меня есть простое правило. Если текст важен, проверяю минимум двумя инструментами. Один, русскоязычный, второй, международный. Внутренние документы, письма, маркетинг, HR, всё проходит через фильтр.

Я уже сталкивался с ситуацией, когда кандидат на вакансию копирайтера присылал абсолютно «пластмассовое» тестовое задание. Проверка показала, сгенерировано от начала до конца. И да, он не прошёл отбор.

Другой пример, подрядчик отправил статью в блог. Красиво написано, но пусто. GigaCheck подсветил почти весь текст как ИИ. Мы запросили доработку, и автор признался, что «подстраховался GPT».

Что дальше

ИИ-детекция — это не волшебная кнопка. Это инструмент. Он помогает, но не решает всё. ИИ уже умеет подражать, ошибаться «по-человечески», менять стиль. Детекторы догоняют, но игра догонялок идёт непрерывно.

Мой подход простой. Не бояться, а проверять. Использовать ИИ, ок. Но выдавать его работу за свою, нет. И когда это понимаешь, становится легче.

Вывод

ИИ, это часть нашей реальности. Он помогает, он ускоряет, он вдохновляет. Но человек, всё ещё главный. Если вы работаете с текстами, включайте детекцию в рабочий процесс. Это не про контроль. Это про честность.

А ещё, это про уважение к читателю. Потому что читатель всё чувствует. Даже если не может это объяснить.

Источник

Новости

Интеллект растёт, а вместе с ним и нагрузки: что скрывается за работой нейросетей

admin 14.10.2025

admin

Генеративные нейросети сегодня кажутся почти магией. Достаточно одной команды, и уже готова картинка, текст, код или даже видео. Однако, как это часто бывает, магия требует ресурсов. Пока пользователи восхищаются результатами, в серверных помещениях греются видеокарты, шумят вентиляторы, мигают индикаторы. Нейросети не работают в изоляции. Им необходимы вычислительные мощности и соответствующая инфраструктура.

Интеллект растёт, а вместе с ним и нагрузки: что скрывается за работой нейросетей

Почему нейросети не могут работать без мощных серверов

Представим процесс обучения нейросети как марафон. Модель перерабатывает терабайты данных, настраивает параметры, учится. Затем наступает этап, когда та же модель начинает отвечать миллионам пользователей. Это уже не марафон, а бесконечный спринт, в котором каждая миллисекунда на вес золота.

В обоих случаях требуются ресурсы: высокая вычислительная мощность, стабильная работа, возможность масштабирования. При этом доступ к этим ресурсам должен обеспечиваться там, где они действительно нужны, будь то дата-центр, заводской цех или склад.

Облачные решения не всегда подходят

Сегодня даже облачные технологии, несмотря на их гибкость и масштаб, не всегда удовлетворяют требованиям. Особенно это актуально, когда ИИ внедряется в корпоративную инфраструктуру. В таких случаях важны не только скорость и эффективность, но также контроль над данными, безопасность и возможность точной настройки оборудования.

Многие организации начинают развивать собственную вычислительную инфраструктуру.

Современные серверы для ИИ: какие задачи они решают

Производители серверов быстро осознали, что искусственный интеллект — не временный тренд, а технологическая реальность. Именно поэтому на рынке появились решения, специально ориентированные на работу с ИИ. Они включают мощные графические ускорители, быстрые накопители, продуманные системы охлаждения и устойчивость к нагрузкам.

Одним из ярких примеров стала линейка HPE ProLiant Gen11. Эти серверы предлагают различные конфигурации, подходящие под разные задачи. Некоторые модели предназначены для крупных дата-центров, другие — для распределённых систем и периферийных решений. Их общая особенность заключается в высокой надёжности и способности справляться с постоянными нагрузками.

Примеры: DL360 Gen11 и DL320 Gen11

Модель HPE ProLiant DL360 Gen11 подойдёт тем, кто разворачивает облачные или гибридные решения. Этот сервер отличается компактными размерами и высокой производительностью. Он способен обрабатывать большие объёмы запросов, поддерживает несколько ускорителей и отлично справляется с распределёнными задачами, где важна минимальная задержка.

В то же время модель HPE ProLiant DL320 Gen11 подойдёт для локальных ИИ-систем. Такие серверы активно применяются в торговле, логистике, здравоохранении и других отраслях, где необходимо быстро обрабатывать данные прямо на месте. Сюда относятся видеоаналитика, первичная фильтрация информации, оперативная реакция на события.

Подробные характеристики, варианты конфигураций и примеры внедрения представлены на официальной странице моделей

На что стоит обратить внимание при выборе сервера под нейросеть

Нельзя назвать одну модель, которая подойдёт для всех случаев. Всё зависит от конкретной задачи. Если требуется обучение нейросети, понадобятся мощные процессоры, большое количество оперативной памяти и производительные графические ускорители. Если речь идёт только о выводе результатов, то главными становятся скорость отклика и стабильная сеть.

Также необходимо учитывать теплоотдачу и энергопотребление. Чем мощнее сервер, тем больше тепла он выделяет. В таких условиях особенно важны системы охлаждения, мониторинг состояния оборудования и грамотное управление эксплуатацией.

Ситуация на российском рынке

В России интерес к серверам для ИИ также активно растёт. Всё больше компаний отказываются от внешних облачных решений в пользу собственной инфраструктуры. Это объясняется необходимостью соблюдать регуляторные требования, обеспечивать технологическую независимость и контролировать потоки данных.

Строятся локальные дата-центры, создаются вычислительные кластеры, внедряются пограничные (edge) решения. HPE ProLiant Gen11 становится частью таких проектов, обеспечивая сочетание производительности, гибкости и надёжности.

Итоги

Генеративный ИИ перестал быть фантастикой и стал инструментом, который активно используется в бизнесе, науке, сервисе. Однако за всей этой автоматикой стоит серьёзная вычислительная база. Надёжность, масштабируемость, безопасность и эффективность системы напрямую зависят от того, насколько грамотно подобрано оборудование.

Поэтому при создании собственной нейросетевой платформы или внедрении ИИ в корпоративную среду важно начать с основ. Надёжный фундамент обеспечит стабильную работу. Серверы HPE ProLiant Gen11 могут стать такой основой, адаптированной под реальные задачи.

Источник

Новости

На рынке AI Reload Voice, Openai делает ставки на обучение на инструкциях и выразительную речь, чтобы выиграть внедрение предприятий

admin 30.08.2025

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

OpenAI добавляет ко все более конкурентоспособному рынку AI Voice для предприятий с его новой моделью GPT-Realtime, которая следует за сложными инструкциями и голосами, «которые звучат более естественным и выразительным».

По мере того, как Voice AI продолжает расти, и клиенты находят варианты использования, такие как звонки по обслуживанию клиентов или перевод в режиме реального времени, рынок для реалистично звучащих голосов искусственного интеллекта, который также обеспечивает нагрев безопасности предприятия. Openai утверждает, что его новая модель обеспечивает более человеческий голос, но она все еще должна конкурировать с такими компаниями, как ElevenLabs.

Модель будет доступна на API в режиме реального времени, что компания также сделала в целом доступной. Наряду с моделью GPT-Realtime, Openai также выпустил новые голоса на API, которые называет Cedar и Marin, и обновил другие свои голоса для работы с последней моделью.

Openai сказал в прямой трансляции, что он работал со своими клиентами, которые создают голосовые приложения для обучения GPT-Realtime и «тщательно выровняли модель с Evals, которые построены на реальных сценариях, таких как поддержка клиентов и академическое обучение».

https://www.youtube.com/watch?v=nfbbmtmjhx0

Компания рекламировала способность модели создавать эмоциональные, естественные голоса, которые также соответствуют тому, как разработчики строят с помощью технологии.

Модели речи до речи

Модель работает в рамках речи до речи, позволяя ей понять разговорные подсказки и реагировать вокально. Модели речи до речи идеально подходят для ответов в реальном времени, где человек, обычно клиент, взаимодействует с приложением.

Например, клиент хочет вернуть некоторые продукты и вызывает платформу обслуживания клиентов. Они могли бы разговаривать с голосовым помощником ИИ, который отвечает на вопросы и запросы, как будто они разговаривали с человеком.

В прямом эфире клиенты Openai T-Mobile продемонстрировали агента по голосовым двигателям, который помогает людям найти новые телефоны. Другой клиент, платформа для поиска недвижимости Zillow, продемонстрировал агента, который помогает кому -то сузить район, чтобы найти идеальное место.

Openai сказал, что GPT-Realtime-это «самая продвинутая, готовая к производству голосовую модель». Как и другие его голосовые модели, он может переключать языки в середине предложения. Тем не менее, исследователи Openai отметили, что GPT-Realtime может следовать более сложным инструкциям, таким как «Выразительно говорить на французском акценте».

Но GPT-Realtime сталкивается с конкуренцией со стороны других моделей, которые уже используют многие бренды. ElevenLabs выпустили разговор AI 2.0 в мае. Soundhound партнера с франшизами быстрого питания для AI Voice Drive-Thru. Выразительный стартап искусственного интеллекта Хьюм запустил свою модель EVI 3, которая позволяет пользователям генерировать версии ИИ своего собственного голоса.

Поскольку предприятия обнаруживают различные варианты использования для голосового искусственного интеллекта, еще более общие поставщики моделей, которые предлагают мультимодальные LLMS, представляют собой случай для себя. Мистраль выпустил свою новую модель Voxtral, заявив, что она будет хорошо работать с переводом в реальном времени. Google расширяет свои возможности аудио и набирает популярность с помощью аудио -функции на Notebooklm, которая преобразует исследовательские заметки в подкаст.

Лучшая инструкция следующая

Openai сказал, что GPT-Realtime умнее и лучше понимает местный звук, в том числе способность ловить невербальные сигналы, такие как смех или вздохи.

Бенчмаркинг с использованием Big Bench Audio Eval показал точность модели, набравшая 82,8% по сравнению с его предыдущей моделью, которая набрала 65,6%. OpenAI не предоставил цифры, испытывающие GPT-Realtime против моделей от своих конкурентов.

OpenAI сосредоточился на улучшении возможностей для подготовки инструкций, гарантируя более эффективную модель. Новая модель достигает оценки 30,5% по многокачественному звуковому эталону. Инженеры также усилили функции вызова, поэтому GPT-Realtime может получить доступ к правильным инструментам.

Обновления API в реальном времени

Чтобы поддержать новую модель и улучшить то, как предприятия интегрируют возможности ИИ в режиме реального времени в свои приложения, OpenAI добавил несколько новых функций в API в реальном времени.

Теперь он может поддерживать MCP и распознавать входы изображений, позволяя информировать пользователей о том, что он видит в режиме реального времени. Это функция Google, подчеркиваемой во время презентации проекта Astra в прошлом году.

API в реальном времени также может обрабатывать протокол инициации сеанса (SIP). SIP подключает приложения к телефонам, таким как общедоступная телефонная сеть или настольные телефоны, открывая больше вариантов использования контактных центров. Пользователи также могут сохранять и повторно использовать подсказки на API.

До сих пор люди впечатлены моделью, хотя это все еще являются начальными тестами модели, которая была недавно выпущена.

TBH, функции MCP и SIP — это настоящая история, а не просто еще одна модель.

Способность беспрепятственно подключаться к внешним инструментам и системам — это то, что в конечном итоге переместит эти модели от впечатляющих демонстраций к интеграции в реальные рабочие процессы.

Аспект в реальном времени …
— jk (@_junaidkhalid1) 28 августа 2025 года

Тестирование GPT-Realtime

Первоначальный обзор:
— заметное улучшение звука
— Это нагнетатель для инструкций (очень хорошо)
— чувствует себя быстро pic.twitter.com/ltycs0qlxv
— Джейк Коллинг (@JacobColling) 28 августа 2025 года

Что ж, GPT-Realtime получил прямую трансляцию не потому, что большинство пользователей заинтересованы, но по стратегическим бизнес-причинам

Центры вызовов являются основной целью для поставщиков LLM, и первая компания, которая достигнет реального прорыва, получит огромный доход
— Anko (@anko_979) 28 августа 2025 года

Плюсы и минусы от @Openai Обновление в реальном времени от кого-то, кто строит в AI Audio:

Pro: лучшее вызов функции, больше эмоций, на 20% дешевле, лучше контролировать, изображение круто, но не использует

CON: никаких пользовательских голосов (творческий опыт должен иметь), все еще * дорогие
— Гэвин Перселл (@gavinpurcell) 28 августа 2025 года

OpenAI снизил цены на GPT-Realtime на 20% до 32 долларов США на миллион токенов аудио и 64 долл. США для токенов вывода аудио.

Источник

Новости

NVIDIA за 46,7 млрд. К -2 Q2 доказывает платформу, но ее следующий бой — ASIC Economics по выводу

admin 30.08.2025

admin

NVIDIA сообщила о доходе 46,7 млрд. Долл. США на 2 -е финансовый квартал 2026 года в своем объявлении о прибыли вчера, и выручка центров обработки данных достигает 41,1 млрд. Долл. США, что на 56% за год. Компания также выпустила руководство для третьего квартала, прогнозируя квартал в 54 миллиарда долларов.

За этими подтвержденными номерами вызовов вызовы лежат более сложная история о том, как пользовательские интегрированные цепи (ASIC) приобретают позиции в ключевых сегментах NVIDIA и будут оспаривать их рост в будущих кварталах.

Вивек Арья Банка Америки спросил президента и исполнительного директора Nvidia Дженсен Хуанг, если он увидит какой -либо сценарий, когда ASICS может взять долю рынка у Nvidia GPU. Asics продолжает получать выгоду от преимуществ производительности и затрат по сравнению с Nvidia, Broadcom проектирует 55% до 60% роста доходов от искусственного интеллекта в следующем году.

Хуан сильно оттолкнулся на звонок. Он подчеркнул, что построение инфраструктуры ИИ является «действительно сложной», и большинство проектов ASIC не могут достичь производства. Это справедливая точка, но у них есть конкурент в Broadcom, который постоянно увеличивает его доход от ИИ, приближаясь к годовой ставке пробега на 20 миллиардов долларов. Дальнейшее подчеркивание растущей конкурентной фрагментации рынка — это то, как Google, Meta и Microsoft все развертывают пользовательский кремний в масштабе. Рынок сказал.

Asics переопределяет конкурентный ландшафт в режиме реального времени

Nvidia более чем способна конкурировать с новыми поставщиками ASIC. Там, где они сталкиваются с опорным ветром, это то, насколько эффективно конкуренты ASIC позиционируют комбинацию своих вариантов использования, претензий на производительность и позиций затрат. Они также стремятся дифференцировать себя с точки зрения уровня блокировки экосистемы, которые они требуют, с Broadcom, ведущим в этом конкурентном измерении.

Следующая таблица сравнивает Nvidia Blackwell с ее основными конкурентами. Результаты реального мира значительно варьируются в зависимости от конкретных рабочих нагрузок и конфигураций развертывания:

Показатель	Нвидия Блэквелл	Google TPU V5E/V6	AWS Tradium/conferentia2	Intel gaudi2/3	Broadcom Jericho3-AI
Основные варианты использования	Обучение, вывод, генеративный ИИ	Гиперсмасштабная тренировка и вывод	Обучение и вывод, ориентированные на AWS	Обучение, вывод, гибридные облаки развертывания	AI Cluster Networking
Претензии на производительность	До 50 -кратного улучшения по сравнению с Хоппера*	67% улучшение TPU V6 VS V5*	Сравнимая производительность графического процессора при более низкой мощности*	2-4-4-кратный производитель ценой против предыдущего поколения*	Инфинибанд паритет на Ethernet*
Стоимость позиции	Премиальные цены, комплексная экосистема	Значительная экономия по сравнению с графическими процессорами на Google*	Агрессивные цены на маркетинг AWS*	Бюджетное альтернативное позиционирование*	Снижение сети TCO на поставщика*
Экосистемная блокировка	Умеренный (Cuda, Propritary)	High (Google Cloud, Tensorflow/Jax)	Высокий (AWS, Собственная нейрон SDK)	Умеренный (поддерживает открытый стек)	Низкие (стандарты на основе Ethernet)
Доступность	Universal (Cloud, OEM)	Google Cloud-Exclusive	AWS-эксклюзивный	Несколько облачных и локальных	Broadcom Direct, OEM -интеграторы
Стратегическая привлекательность	Проверенная масштаба, широкая поддержка	Оптимизация рабочей нагрузки облака	AWS Интеграционные преимущества	Гибкость с несколькими облаками	Упрощенное сетевое взаимодействие
Рыночная позиция	Лидерство с маржинальным давлением	Растет в определенных рабочих нагрузках	Расширение в AWS	Новая альтернатива	Инфраструктура

*Улучшения и экономия производительности и экономии затрат зависят от конкретных характеристик рабочей нагрузки, типов моделей, конфигураций развертывания и допущений по тестированию поставщиков. Фактические результаты значительно варьируются в зависимости от использования.

Гиперырки продолжают строить свои собственные пути

Каждый крупный облачный провайдер принял пользовательский кремний для повышения производительности, затрат, экосистемы и обширных преимуществ DevOps для определения ASIC с нуля. Google управляет TPU V6 в производстве благодаря партнерству с Broadcom. Метастроитые чипы MTIA специально для ранжирования и рекомендаций. Microsoft разрабатывает Project Maia для устойчивых рабочих нагрузок искусственного интеллекта.

Amazon Web Services поощряет клиентов использовать Tradium для обучения и вывода для вывода.

Добавьте к этому тот факт, что Bytedance выполняет рекомендации Tiktok по специальному кремнию, несмотря на геополитическую напряженность. Это миллиарды запросов на вывод, работающие на ASICS в день, а не на графических процессоров.

Финансовый директор Колетт Кресс признал конкурентную реальность во время вызова. Она ссылалась на доход в Китае, заявив, что она упала до низкого однозначного процента доходов центров обработки данных. Текущее руководство Q3 исключает поставки H20 в Китай полностью. В то время как заявления Хуанга об обширных возможностях Китая пытались управлять вызовом доходов в позитивном направлении, было ясно, что аналитики акций не покупали все это.

Общий тон и перспектива заключается в том, что экспортные элементы управления создают постоянную неопределенность для NVIDIA на рынке, который, возможно, представляет собой вторую наиболее значительную возможность роста. Хуан сказал, что 50% всех исследователей искусственного интеллекта находятся в Китае, и он полностью привержен обслуживанию этого рынка.

Преимущество платформы NVIDIA является одной из самых сильных сторон

Хуан сделал действительный случай для интегрированного подхода Nvidia во время вызова заработка. Он утверждал, что создание современного искусственного интеллекта требует шести различных типов чипсов, работающих вместе, и эта сложность создает барьеры, которые конкуренты борются. NVIDIA больше не просто поставляет графические процессоры, он несколько раз подчеркнул на вызов заработка. Компания обеспечивает полную инфраструктуру ИИ, которая масштабируется во всем мире, он решительно заявил, возвращаясь к инфраструктуре ИИ в качестве основного сообщения о доходах, сославшись на него шесть раз.

Вездесущность платформы делает его конфигурацией по умолчанию, поддерживаемой почти каждым циклом облачных гиперсметов DevOps. Nvidia работает через AWS, Azure и Google Cloud. Pytorch и Tensorflow также оптимизируют для CUDA по умолчанию. Когда Meta бросает новую модель Llama или Google обновления Gemini, сначала они нацелены на оборудование NVIDIA, потому что именно здесь миллионы разработчиков уже работают. Экосистема создает свою собственную гравитацию.

Сетевой бизнес проверяет стратегию инфраструктуры искусственного интеллекта. Выручка достигла 7,3 миллиарда долларов во втором квартале, что на 98% за год. NVLink подключает графические процессоры на скорости традиционной сети. Не может коснуться. Хуан рассказал о реальной экономике во время вызова: Nvidia захватывает около 35% типичного бюджета Гигаватт ИИ.

«Из гигаваттской фабрики AI, которая может сойти от 50 до, вы знаете, плюс или минус 10%, скажем, до 60 миллиардов долларов, мы представляем около 35% плюс или минус этого.… И, конечно, то, что вы получаете для этого, не является графическим процессором.… Мы действительно перешли на компанию по инфраструктуре ИИ», — сказал Хуанг.

Это не просто продажа чипсов. Это владеет архитектурой и захватывает значительную часть всей сборки искусственного интеллекта, основанную на передовых сетевых и вычислительных платформах, таких как системы масштаба RACKLINK и Spectrum X Ethernet.

Динамика рынка быстро меняется, так как Nvidia продолжает сообщать о сильных результатах

Рост выручки NVIDIA замедлялся от тройных цифр до 56% годового года. Хотя это все еще впечатляет, ясно, что траектория роста компании меняется. Конкуренция начинает влиять на их рост, поскольку в этом квартале наблюдается наиболее заметное влияние.

В частности, стратегическая роль Китая в глобальной гонке искусственного интеллекта привлекла внимание аналитиков. По оценкам, Джо Мур из Моргана Стэнли исследовал в конце звонка, Хуанг оценил возможность инфраструктуры ИИ в 2025 году в 50 миллиардов долларов. Он сообщил об обоих оптимизме о шкале («второй по величине рынок компьютеров в мире», с «около 50% исследователей ИИ в мире») и реализм о трениях регулирования.

Третья ключевая сила, формирующая траекторию NVIDIA, — это расширяющаяся сложность и стоимость самой инфраструктуры ИИ. Поскольку гиперсвалители и давние клиенты Nvidia инвестируют миллиарды в наращивание следующего поколения, сетевые требования, вычисления и энергоэффективность усилились.

Комментарии Хуанг подчеркнули, как «скорость на высоте» с новых платформ, таких как Blackwell и Innovations в NVLink, Infiniband и Spectrum XGS Networking, переосмысливают экономическую прибыль для капитала центров обработки данных клиентов. Между тем, давление в цепочке поставок и необходимость в постоянном технологическом переосмыслении среднее значение NVIDIA должно поддерживать неустанный темп и адаптивность, чтобы оставаться укоренившимися в качестве предпочтительного поставщика архитектуры.

Переход NVIDIA ясен

NVIDIA Руководство по выпуску 3 -го квартала в размере 54 миллиардов долларов посылает сигнал о том, что основная часть их ДНК настолько же сильна, как и всегда. Постоянное совершенствование Блэквелла при разработке архитектуры Рубина является доказательством того, что их способность к инновациям так же сильна, как и всегда.

Вопрос в том, является ли новый тип инновационной проблемы, с которой они сталкиваются, и выиграть, и выиграть с тем же уровнем интенсивности развития, который они показали в прошлом. VentureBeat ожидает, что Broadcom продолжит агрессивно продолжать новые партнерские отношения с гиперскластером и укрепить свою дорожную карту для конкретных оптимизаций, направленных на рабочие нагрузки. Каждый конкурент ASIC примет конкурентную интенсивность, которая имеет у него на новый уровень, стремясь получить побед в дизайне, которые также создают более высокие затраты на переключение.

Хуан закрыл звонок о доходах, признавая ставки: «Началась новая промышленная революция. Гонка ИИ включена». Эта гонка включает в себя серьезных конкурентов, которые Нвидия уволила всего два года назад. Broadcom, Google, Amazon и другие инвестируют миллиарды в таможенные кремниевые. Они больше не экспериментируют. Они отправляются в масштабе.

Nvidia сталкивается с самой сильной конкуренцией с тех пор, как началось доминирование CUDA. Квартал компании 46,7 млрд. Долл. США доказывает свою силу. Тем не менее, импульс Custom Silicon предполагает, что игра изменилась. Следующая глава проверит, перевешивают ли преимущества платформы NVIDIA Economics. VentureBeat ожидает, что покупатели технологий будут следовать пути менеджеров фондов, делая ставку на Nvidia, чтобы поддерживать свою прибыльную клиентскую базу и конкурентов ASIC для обеспечения побед в дизайне, поскольку усиление конкуренции вызывает большую фрагментацию рынка.

Источник

Новости

Забудьте о маркировке данных: R-Zero Tencent показывает, как LLM могут тренироваться

admin 29.08.2025

admin

Новая учебная структура Разработано исследователями в Tencent AI Lab и Вашингтонском университете в Сент -Луисе, позволяет крупным языковым моделям (LLMS) улучшаться, не требуя необходимости любые данные по человеку. Техника, называемая R-Zero, использует обучение подкреплению для создания собственных учебных данных с нуля, посвященных одному из основных узких мест в создании самоочевидных систем ИИ. R-Zero работает, имея две независимые модели, эволюционные, взаимодействуя и бросая вызов друг другу.

Эксперименты показывают, что r-Zero существенно улучшает возможности рассуждений в разных LLM, что может снизить сложность и затраты на обучение продвинутому ИИ. Для предприятий этот подход может ускорить разработку специализированных моделей для сложных задач рассуждения без огромных затрат на кураторские наборы данных.

Задача самооткрытия LLMS

Идея, лежащая в основе самоочевидных LLMS, заключается в создании систем ИИ, которые могут автономно генерировать, совершенствовать и учиться на своем собственном опыте. Это предлагает масштабируемый путь к более интеллектуальному и способному ИИ. Тем не менее, основная задача заключается в том, что обучение этих моделях требует больших объемов высококачественных задач и ярлыков, которые действуют как сигналы надзора для ИИ учиться.

Полагаться на человеческие аннотаторы для создания этих данных не только дорого и медленно, но и создает фундаментальное узкое место. Это эффективно ограничивает потенциальные возможности ИИ тем, чему люди могут научить его. Чтобы решить эту проблему, исследователи разработали методы без метки, которые получают сигналы вознаграждения непосредственно из собственных выходов модели, например, путем измерения его уверенности в ответе. Хотя эти методы устраняют необходимость в явных метках, они по-прежнему полагаются на ранее существовавший набор задач, тем самым ограничивая их применимость в по-настоящему самооценку сценариев.

Другие подходы включают в себя наличие моделей, генерирующих свои собственные задачи для обучения. Тем не менее, в таких областях, как открытые рассуждения, где нет простого способа проверить правильность (например, исполнитель кода), обеспечение качества этих самогенерированных данных является значительным препятствием.

Как работает r-Zero

R-Zero-это структура, предназначенная для обучения рассуждений LLM, которые могут развиваться из нулевых внешних данных. Процесс начинается с одной базовой модели, которая разделена на две роли: «претендент» и «решатель». Эти две модели оптимизированы независимо, но развиваются вместе с помощью непрерывного цикла взаимодействия.

Цель претендента состоит в том, чтобы создать новые задачи, которые находятся только на пороге текущих способностей решателя, ни слишком легким, ни невозможным. Решатель, в свою очередь, вознагражден за решение этих все более сложных задач. В письменных комментариях к VentureBeat, Ченгсонгу Хуангу, соавтору газеты и докторантуру в Вашингтонском университете в Сент-Луисе, объяснил, что эта динамика имеет решающее значение, поскольку генерирование высококачественных вопросов часто более сложна, чем найти ответы.

«То, что мы нашли в практической обстановке, так это то, что самой большой проблемой является не генерирование ответов … а скорее генерирование высококачественных, новых и постепенно более сложных вопросов»,-сказал Хуанг. «Мы считаем, что хорошие учителя гораздо реже, чем хорошие ученики. Коэволюционная динамика автоматизирует создание этого« учителя », обеспечивая устойчивую и динамическую учебную программу, которая подталкивает возможности решателя далеко за пределы того, чего мог бы достичь статический, ранее существовавший набор данных».

Как только претендент создает достаточно вопросов, они фильтруют для разнообразия и составлены в учебный набор данных. На этапе обучения решателя это настраивается на эти сложные вопросы. «Правильный» ответ на каждый вопрос определяется большинством голосов по предыдущим попыткам решателя.

Весь этот процесс повторяется, создавая самосовершенствоваемую цикл, который работает без какого-либо вмешательства человека, позволяя двум моделям подталкивать друг друга к постепенно более способным на каждой итерации.

R-Zero в действии

Исследователи протестировали R-Zero на нескольких LLM с открытым исходным кодом, включая модели из семей QWEN3 и Octothinker. Сначала они обучили модели по математическим задачам, а затем проверили, могут ли ученые навыки рассуждения обобщать другие сложные, общие контрольные показатели, такие как MMLU-PRO (многоязычное понимание и рассуждения) и SuperGPQA (наука и рассуждения).

Результаты показали, что r-Zero является высокоэффективной, агентской моделью. Например, он увеличил оценку модели QWEN3-4B-базы на +6,49 в среднем по критериям математических рассуждений. Процесс обучения последовательно и существенно улучшал производительность, причем выгоды накапливаются на несколько итераций. Большая модель QWEN3-8B-базы показала, что его средний математический балл поднимается на +5,51 балла после трех итераций.

Ключевым выводом стал немедленный скачок эффективности после первой итерации, которая подтвердила эффективность роли претендента в создании высококачественной учебной программы. «Это подтверждает, что интеллектуальная учебная программа, генерируемая претендентом, обученным RL, значительно более эффективна, чем у не обученного генератора»,-пишут исследователи в своей статье.

Примечательно, что навыки, полученные из математических задач, были эффективно переданы в общие задачи рассуждения, тем самым расширяя основные возможности моделей. Например, та же самая модель QWEN3-4B-базы показала улучшение +7,54 на критериях рассуждений общего домена. Еще один интересный вывод состоит в том, что R-Zero может служить решающим шагом перед тренировкой. Сначала модели улучшились с помощью R-Zero, достигнув еще более высокой производительности, когда позже настраивались в традиционных маркированных данных, что предполагает, что структура действует как усилитель производительности.

Для предприятий подход «от нулевых данных» может изменить ситуацию, особенно в нишевых областях, где высококачественные данные ограничены или не существуют. Huang подчеркивает, что основным преимуществом R-Zero является его способность обойти самую дорогую и трудоемкую часть разработки ИИ: курация данных.

«Наш подход полностью обходит фундаментальное узкое место необходимости найти, маркировать и курировать высококачественные наборы данных»,-сказал он. «Это не только мера экономии затрат; это путь к созданию ИИ, который может превзойти человеческие возможности, потому что он больше не ограничен масштабами человеческих знаний или данных».

Тем не менее, коэволюционный процесс также выявил критическую проблему. Поскольку претендент успешно генерирует постепенно более сложные проблемы, способность решателя давать надежные «правильные» ответы с помощью большинства голосов начинает снижаться. Исследователи обнаружили, что истинная точность этих сгенерированных этикетков упала с 79% в первой итерации до 63% на треть.по сравнению с сильным Oracle LLM, таким как GPT -4Полем Это снижение качества данных является ключевым компромиссом и потенциальным узким местом для долгосрочной производительности системы.

Хуан признал, что это фундаментальная проблема для парадигмы самоочечения. «Наша работа является доказательством концепции, которое демонстрирует потенциал такого подхода, но мы признаем, что поддержание стабильного, долгосрочного улучшения без плато является значительным препятствием»,-сказал он. «Решение этой проблемы станет важным следующим шагом для всего исследовательского сообщества».

Исследователи также выделяют ключевое ограничение структуры: текущий механизм лучше всего подходит для таких областей, как математика, где правильность может быть объективно определена. Итак, как эта мощная парадигма может распространяться на более субъективные задачи предприятия, такие как генерирование маркетинговой копии или обобщение отчетов?

Хуан предлагает, что потенциальный путь вперед включает в себя добавление третьего, эволюционирующего агента ИИ в микс: «верификатор» или «критик».

«Вместо того, чтобы оценивать простой« правильный »ответ, этот проверчик будет обучен оценке качества вывода решателя на основе более тонких критериев», — пояснил он. «Затем коэволюционная динамика будет включать в себя претендент, создающий подсказку, решатель, генерирующий отклик, и проверку, обеспечивающий качественный сигнал, причем все три модели улучшаются».

Хотя это остается направлением для будущих исследований, он указывает на будущее, когда полностью автономные системы ИИ могут освоить не только объективную логику, но и субъективные рассуждения.

Источник

Новости

Openai-Anpropic Cross-тесты подвергают риски джейлбрейка и неправильного использования-что предприятия должны добавить к оценкам GPT-5

admin 29.08.2025

admin

Openai и Anpropic могут часто противопоставлять свои модели фундамента друг против друга, но две компании собрались вместе, чтобы оценить общественные модели друг друга для проверки выравнивания.

Компании заявили, что, по их мнению, что межоценка подотчетности и безопасности обеспечат большую прозрачность в то, что могут сделать эти мощные модели, что позволит предприятиям выбирать модели, которые лучше всего подходят для них.

«Мы считаем, что этот подход поддерживает подотчетную и прозрачную оценку, помогая гарантировать, что модели каждой лаборатории продолжают испытывать тестирование на новые и сложные сценарии», — сказал Openai в своих выводах.

Обе компании обнаружили, что модели рассуждений, такие как Openai’s 03 и O4-Mini и Claude 4 от Anpropic, сопротивляются джейлбрейкам, в то время как общие модели чата, такие как GPT-4.1, были подвержены неправильному использованию. Подобные оценки могут помочь предприятиям определить потенциальные риски, связанные с этими моделями, хотя следует отметить, что GPT-5 не является частью теста.

Эти оценки выравнивания безопасности и прозрачности следуют заявлениям пользователей, в первую очередь из -за CHATGPT, что модели OpenAI стали жертвами сикофсинности и становятся чрезмерными. OpenAI с тех пор отбросил обновления, которые вызвали сикофанность.

«Мы в первую очередь заинтересованы в понимании модельных склонностей для вредных действий», — сказал Антропик в своем отчете. «Мы стремимся понять наиболее касающиеся действий, которые эти модели могут попытаться предпринять, когда предоставляют возможность, вместо того, чтобы сосредоточиться на реальной вероятности возникновения таких возможностей или вероятности того, что эти действия будут успешно завершены».

Openai отметил, что тесты были разработаны, чтобы показать, как модели взаимодействуют в намеренно сложной среде. Сценарии, которые они построили, являются в основном краевыми случаями.

Модели рассуждений поддерживают выравнивание

Тесты охватывали только общедоступные модели обеих компаний: Claude 4 Opus и Claude 4 Sonnet, а также GPT-4O Openai, GPT-4.1 O3 и O4-Mini. Обе компании ослабили внешние гарантии моделей.

OpenAI проверил публичные API для моделей Claude и не выполнил обязанности использования возможностей рассуждений Claude 4. Антропик сказал, что они не использовали O3-Pro Openai, потому что он «не совместимо с API, который лучше всего поддерживает инструменты».

Целью тестов было не провести сравнение яблок с яблоками между моделями, а для определения того, как часто крупные языковые модели (LLMS) отклоняются от выравнивания. Обе компании использовали структуру оценки саботажа в тени-ариене, которая показала, что модели Claude имели более высокие показатели успеха в тонком саботаже.

«Эти тесты оценивают ориентацию моделей на сложные или высокие ситуации в моделируемых настройках, а не обычные варианты использования-и часто включают в себя длительные, много поворотных взаимодействий»,-сообщает Anpropic. «Этот вид оценки становится значительным направлением для нашей научной группы по выравниванию, поскольку, вероятно, это может уладить поведение, которое с меньшей вероятностью появится в обычном тестировании перед развертыванием с реальными пользователями».

Антропик сказал, что подобные тесты работают лучше, если организации могут сравнивать заметки: «Поскольку проектирование этих сценариев включает в себя огромное количество степеней свободы. Ни одна исследовательская группа не может изучить все пространство продуктивных оценочных идей в одиночку».

Результаты показали, что в целом модели рассуждений выполнялись надежно и могут сопротивляться джейлбрейку. O3 Openai был лучше выровнен, чем Claude 4 Opus, но O4-Mini вместе с GPT-4O и GPT-4.1 «часто выглядел несколько более решающим, чем любая модель Клода».

GPT-4O, GPT-4.1 и O4-Mini также продемонстрировали готовность сотрудничать с человеческим неправильным использованием и дали подробные инструкции о том, как создавать лекарства, развивать биоапоны и страшные планы террористических атак. Обе модели Claude имели более высокие показатели отказов, что означает, что модели отказались отвечать на запросы, на которые не знали ответы, чтобы избежать галлюцинаций.

Модели от компаний показали «касающиеся форм сикофсинности» и, в какой -то момент, подтвердили вредные решения моделируемых пользователей.

Что должны знать предприятия

Для предприятий понимание потенциальных рисков, связанных с моделями, неоценимо. Оценки моделей стали почти де -Ригюруром для многих организаций, и теперь доступно множество фреймворков тестирования и сравнительного анализа.

Предприятия должны продолжать оценивать любую модель, которую они используют, и с выпуском GPT-5 должны иметь в виду эти руководящие принципы для проведения собственных оценок безопасности:

Проверьте как рассуждения, так и не взыскание моделей, потому что, хотя модели рассуждений показали большую устойчивость к неправильному использованию, они все равно могут предложить галлюцинации или другое вредное поведение.
Конфликт между поставщиками, поскольку модели не удались в разных метрик.
Стресс-тест на злоупотребление и сикурсию, а также набрать как отказ, так и полезность тех, кто отказывается показывать компромиссы между полезностью и ограждениями.
Продолжайте проверять модели даже после развертывания.

В то время как многие оценки сосредоточены на производительности, существуют сторонние тесты выравнивания безопасности. Например, этот из Cyata. В прошлом году OpenAI выпустила метод обучения выравнивания для своих моделей, называемых на основе правил, в то время как Anpropic запустил аудиторские агенты для проверки безопасности модели.

Источник

Новости

Антропический запуск Клода для Chrome в ограниченной бета -версии, но быстрые инъекционные атаки остаются серьезным проблемой

admin 28.08.2025

admin

Антропик начал тестировать расширение браузера Chrome, которое позволяет его помощнику Claude AI взять под контроль веб -браузеры пользователей, отмечая вход компании на все более переполненную и потенциально рискованную арену, где системы искусственного интеллекта могут непосредственно манипулировать компьютерными интерфейсами.

Во вторник компания по искусству в Сан-Франциско объявила, что она будет пилотировать «Claude for Chrome» с 1000 доверенных пользователей на своем плане Max Premium, позиционируя ограниченное развертывание в качестве предварительного просмотра исследования, предназначенного для решения значительных уязвимостей безопасности до более широкого развертывания. Осторожный подход резко контрастирует с более агрессивными движениями со стороны конкурентов Openai и Microsoft, которые уже выпустили аналогичные компьютерные системы ИИ, контролирующие компьютер, для более широких пользовательских баз.

В объявлении подчеркивается, как быстро индустрия искусственного интеллекта перешла от разработки чат-ботов, которые просто отвечают на вопросы для создания «агентских» систем, способных автономно выполнять сложные многоэтапные задачи в программных приложениях. Эта эволюция представляет то, что многие эксперты считают следующей границей в искусственном интеллекте — и, возможно, одной из самых прибыльных, поскольку компании участвуют в автоматизации всего, от отчетов о расходах до планирования отпуска.

https://www.youtube.com/watch?v=MCJ4KX_P2AK

Как агенты ИИ могут контролировать ваш браузер, но скрытый вредоносной код представляет серьезные угрозы безопасности

Claude для Chrome позволяет пользователям инструктировать ИИ выполнять действия от их имени в веб-браузерах, таких как планирование встреч путем проверки календарей и доступность ресторана в ресторане или управление почтовыми ящиками и обработка рутинных административных задач. Система может видеть, что отображается на экране, нажимает кнопки, заполняет формы и перемещается между веб-сайтами,-по существу подражая тому, как люди взаимодействуют с веб-программным обеспечением.

«Мы рассматриваем ИИ, использующий браузер как неизбежный: в браузерах происходит так много работы, что дает Клоду возможность видеть, на что вы смотрите, нажимать кнопки и заполнять формы, сделают его значительно более полезным»,-заявил Антроп в своем объявлении.

Тем не менее, внутреннее тестирование компании выявило в отношении уязвимостей безопасности, которые подчеркивают ободрительный характер предоставления прямого контроля систем AI над пользовательскими интерфейсами. В состязательном тестировании Антропик обнаружил, что вредоносные субъекты могут внедрить скрытые инструкции на веб -сайтах, электронных письмах или документах, чтобы обмануть системы ИИ в вредные действия без знаний пользователей — метод, называемый быстрым инъекцией.

Без смягчения безопасности эти атаки преуспели в 23,6% случаев, когда намеренно нацеливались на ИИ, использующий браузер. В одном примере, злонамеренное электронное письмо, маскирующее в качестве директивы по безопасности, поручила Клоду удалить электронные письма пользователя «для гигиены почтового ящика», которую ИИ послушно выполнял без подтверждения.

«Это не спекуляция: мы провели эксперименты с красными командами, чтобы проверить Claude на Chrome, и, без смягчения, мы нашли некоторые результаты»,-признала компания.

OpenAI и Microsoft Rush на рынок, в то время как Anpropic использует измеренный подход к технологии компьютерного контроля

Измеренный подход Anpropic возникает, поскольку конкуренты более агрессивно перемещались в пространство управления компьютером. OpenAI запустила своего агента «оператора» в январе, что сделало его доступным для всех пользователей своей услуги CHATGPT Pro в 200 долларов в месяц. Оператор, основанный на новой модели «компьютерного агента», может выполнять такие задачи, как бронирование концертных билетов, заказы продуктов и планирование маршрутов.

Microsoft последовала в апреле с возможностями использования компьютера, интегрированными в свою платформу Copilot Studio, нацеленную на корпоративные клиенты с инструментами автоматизации пользовательского интерфейса, которые могут взаимодействовать как с веб -приложениями, так и с программным обеспечением для настольных компьютеров. Компания позиционировала свое предложение в качестве замены следующего поколения для традиционных систем автоматизации роботизированных процессов (RPA).

Конкурентная динамика отражает более широкую напряженность в отрасли искусственного интеллекта, где компании должны сбалансировать давление, чтобы поставить передовые возможности против рисков развертывания недостаточно проверенной технологии. Более агрессивная срока OpenAI позволила ему захватить раннюю долю рынка, в то время как осторожный подход Anpropic может ограничить его конкурентную позицию, но может оказаться выгодным, если существует проблемы безопасности.

«Уже появляются агенты, использующие браузер, приводящие в действие пограничные модели, что делает эту работу особенно срочной»,-отметил Антроп, предполагая, что компания чувствует себя вынужденной выходить на рынок, несмотря на нерешенные проблемы безопасности.

Почему компьютерный ИИ может революционизировать автоматизацию предприятия и заменить дорогостоящее программное обеспечение рабочего процесса

Появление компьютерных систем ИИ может в корне изменить то, как компании подходят к автоматизации и управлению рабочими процессами. Текущая автоматизация предприятия обычно требует дорогостоящих пользовательских интеграций или специализированного программного обеспечения для автоматизации роботизированных процессов, которое ломается, когда приложения меняют свои интерфейсы.

Компьютерные агенты обещают демократизировать автоматизацию, работая с любым программным обеспечением, которое имеет графический пользовательский интерфейс, потенциально автоматизируя задачи в обширной экосистеме бизнес-приложений, в которых отсутствует формальные API или возможности интеграции.

Исследователи Salesforce недавно продемонстрировали этот потенциал с их системой COACT-1, которая объединяет традиционную автоматизацию точек и щелчена с возможностями генерации кода. Гибридный подход достиг 60,76% успеха в сложных компьютерных задачах, одновременно требуя значительно меньше этапов, чем чистые агенты на основе графического интерфейса, что позволяет предположить значительный рост эффективности.

«Для лидеров предприятия ключевым фактором является автоматизация сложных многопрофильных процессов, где полный доступ к API является роскошью, а не гарантией»,-пояснил Ран Сюй, директор прикладных исследований в области ИИ в Salesforce, указывая на рабочие процессы поддержки клиентов, которые охватывают множественные собственные системы в качестве основных вариантов использования.

Исследователи университета выпускают бесплатную альтернативу проприетарным компьютерным компьютерным системам компьютерного использования компьютерного использования

Доминирование проприетарных систем от крупных технологических компаний побудило академических исследователей разработать открытые альтернативы. Университет Гонконга недавно выпустил OpenCua, открытый источник для обучения агентов по компьютерному использованию, которые конкурируют с эффективностью проприетарных моделей от OpenAI и антропов.

Система OpenCua, обученная более чем 22 600 демонстрациям человеческих задач по всем Windows, MacOS и Ubuntu, достигла самых современных результатов среди моделей с открытым исходным кодом и выполняла конкуренцию с ведущими коммерческими системами. Эта разработка может ускорить принятие предприятий, не решающихся полагаться на закрытые системы для критических рабочих процессов автоматизации.

Тестирование на безопасность Антропика показывает, что агенты ИИ могут быть обмануты в удалении файлов и краже данных

Anpropic внедрил несколько уровней защиты для Claude для Chrome, включая разрешения на уровне сайта, которые позволяют пользователям контролировать, к каким веб-сайтам доступ к искусственному интеллекту, обязательные подтверждения перед действиями высокого риска, таких как совершение покупок или обмен персональными данными, и блокирование доступа к категориям, таким как финансовые услуги и контент для взрослых.

Повышение безопасности компании снизило показатели успешных атак в эксплуатации с 23,6% до 11,2% в автономном режиме, хотя руководители признают, что это остается недостаточным для широкого распространения развертывания. На атаках, специфичных для браузера с участием скрытых форм полей и манипуляций с URL, новые смягчения снижали уровень успеха с 35,7% до нуля.

Тем не менее, эти средства защиты могут не масштабироваться до полной сложности реальных веб-сред, где новые векторы атаки продолжают появляться. Компания планирует использовать понимание пилотной программы, чтобы уточнить свои системы безопасности и разработать более сложные элементы управления разрешением.

«Новые формы быстрых инъекционных атак также постоянно разрабатываются злонамеренными актерами», — предупредил Антропик, подчеркивая постоянный характер проблемы безопасности.

Рост агентов искусственного интеллекта, которые клики и типа могут принципиально изменить, как люди взаимодействуют с компьютерами

Конвергенция нескольких крупных компаний искусственного интеллекта вокруг компьютерного управляющего агентов сигнализирует о значительном сдвиге в том, как системы искусственного интеллекта будут взаимодействовать с существующей программной инфраструктурой. Вместо того, чтобы потребовать от предприятий принять новые инструменты, специфичные для искусственного интеллекта, эти системы обещают работать с любыми приложениями, которые уже используют компании.

Этот подход может значительно снизить барьеры для принятия ИИ, в то же время потенциально вытесняя традиционные поставщики автоматизации и системные интеграторы. Компании, которые инвестировали в значительной степени в пользовательские интеграции или платформы RPA, могут найти свои подходы, устаревшие агентами общего назначения ИИ, которые могут адаптироваться к изменениям раздела без перепрограммирования.

Для лиц, принимающих решения предприятия, технология представляет как возможности, так и риск. Ранние пользователи могут получить значительные конкурентные преимущества благодаря улучшению возможностей автоматизации, но уязвимости безопасности, продемонстрированные такими компаниями, как Anpropic, предполагают, что осторожность может быть оправдана до тех пор, пока меры безопасности не станут.

Ограниченный пилот Claude для Chrome представляет только начало того, что наблюдатели отрасли ожидают, что будет быстрое расширение возможностей ИИ, контролирующих компьютер, с последствиями, которые выходят далеко за рамки простой автоматизации задач до фундаментальных вопросов о взаимодействии человека и компьютеров и цифровой безопасности.

Как отметил Антроп в своем объявлении: «Мы считаем, что эти события откроют новые возможности для того, как вы работаете с Клодом, и мы с нетерпением ждем возможности увидеть, что вы создадите». Оказаться ли эти возможности в конечном итоге оказывать полезные или проблематичные, могут зависеть от того, насколько успешно отрасль решает проблемы безопасности, которые уже начали появляться.

Источник