Категория:

Новости

Лидеры предприятия говорят, что рецепт для агентов искусственного интеллекта соответствует их существующим процессам, а не наоборот.

admin 27.08.2025

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Нет сомнений в том, что агенты ИИ — те, которые могут работать автономно и асинхронно за кулисами в предпринимательских рабочих процессах — являются темой Du Jour на предприятии прямо сейчас.

Но все больше обеспокоена тем, что все это — говорить, в основном ажиотаж, без особой субстанции.

Гартнер, например, отмечает, что предприятия находятся на «пике завышенных ожиданий», периода незадолго до разочарования, потому что поставщики не поддерживали свои разговоры с ощутимыми, реальными случаями использования.

Тем не менее, это не значит, что предприятия не экспериментируют с агентами ИИ и не видят раннего возврата инвестиций (ROI); Глобальные предприятия Block и GlaxoSmithkline (GSK), для их частей, изучают подтверждение концепций в финансовых услугах и обнаружении лекарств.

«Многоагент-это абсолютно то, что будет дальше, но мы выясняем, как это выглядит таким образом, чтобы встретиться с человеком, делает его удобным»,-сказал Брэд Аксен, технологический лидер Блока для ИИ и платформ данных, генеральный директор Venturebeat и главный редактор Мэтт Маршалл на недавнем событии SAP Impact Impact в этом месяце.

Работа с одним коллегой, а не рой ботов

Блок, родительская компания из 10 000 человек из Square, Cash App и Afterpay, рассматривает себя в режиме полного обнаружения, в январе развернув совместимую рамку агента ИИ, кодовой Гусь.

Гус был первоначально введен для задач по разработке программного обеспечения и в настоящее время используется 4000 инженеров, а в ежемесячном удвоении удвоилось внедрение. Платформа пишет около 90% кода и сэкономила инженерам около 10 часов работы в неделю путем автоматизации генерации кода, отладки и фильтрации информации.

В дополнение к написанию кода, Goose выступает в роли «цифрового товарища по команде», сжимая слабые и электронные потоки, интегрируя инструменты компании и нерестив новых агентов, когда задачи требуют большей пропускной способности и расширенного объема.

AXEN подчеркнул, что блок сосредоточен на создании одного интерфейса, который чувствует себя как работа с одним коллегой, а не с рой ботов. «Мы хотим, чтобы вы чувствовали, что работаете с одним человеком, но они действуют от вашего имени во многих местах разными способами», — пояснил он.

Gose работает в реальном времени в среде разработки, поиска, навигации и написания кода на основе выводов крупной языковой модели (LLM), а также автономно чтение и написание файлов, запуск кода и тестов, усовершенствования выходов и установки зависимостей.

По сути, любой может построить и управлять системой на их предпочтительном LLM, и гусь может быть концептуализирован как приложение. Он имеет встроенный настольный приложение и интерфейс командной строки, но разработчики также могут создавать пользовательские интерфейсы. Платформа построена на протоколе контекста модели Anpropic (MCP), все более популярном стандартизированном наборе API и конечных точках с открытым исходным кодом, который соединяет агенты с хранилищами данных, инструментами и средами разработки.

Гус был выпущен в рамках лицензии Apache с открытым исходным кодом 2.0 (ASL2), что означает, что каждый может свободно использовать, изменять и распространять его, даже для коммерческих целей. Пользователи могут получить доступ к базам данных DataBricks и делать SQL -вызовы или запросы без необходимости технических знаний.

«Мы действительно хотим придумать процесс, который позволяет людям получить ценность из системы без необходимости быть экспертом», — пояснил Аксен.

Например, при кодировании пользователи могут сказать, что они хотят на естественном языке, и структура будет интерпретировать это на тысячи строк кода, которые затем могут прочитать и просеивать. Блок также видит ценность в задачах сжатия, таких как чтение гуся, через Slack, электронную почту и другие каналы и суммирование информации для пользователей. Кроме того, в продажах или маркетинге агенты могут собирать соответствующую информацию о потенциальном клиенте и перенести ее в базу данных.

Агенты искусственного интеллекта недостаточно используются, но экспертиза человеческой области все еще необходима

Аксен отметил, что процесс был самым большим узким местом. Вы не можете просто дать людям инструмент и сказать им, чтобы они работали на них; Агенты должны отражать процессы, с которыми уже участвуют сотрудники. Пользователи людей не беспокоятся о технической основе, — скорее, о работе, которую они пытаются выполнить.

Поэтому строители должны смотреть на то, что пытаются делать сотрудники, и разработать инструменты, чтобы «как можно более буквально», — сказал Аксен. Затем они могут использовать это для цепей вместе и решать большие и большие проблемы.

«Я думаю, что мы чрезвычайно недооцениваем то, что они могут сделать», — сказал Аксен об агентах. «Это люди и процесс, потому что мы не можем не отставать от технологии. Между технологией и возможностью существует огромный разрыв».

И когда индустрия затчивает, будет ли еще место для опыта в области человеческой области? Конечно, говорит Аксен. Например, особенно в финансовых услугах, код должен быть надежным, соответствием и безопасным для защиты компании и пользователей; Следовательно, это должно быть рассмотрено человеческими глазами.

«Мы по -прежнему видим действительно важную роль для человеческих экспертов в каждой части управления нашей компанией», — сказал он. «Это не обязательно меняет то, что опыт означает как личность. Он просто дает вам новый инструмент, чтобы выразить его».

Блок, построенный на основе с открытым исходным кодом

Человеческий пользовательский интерфейс является одним из самых сложных элементов агентов ИИ, отметил Аксен; Цель состоит в том, чтобы сделать интерфейсы простыми в использовании, в то время как ИИ находится в фоновом режиме активно предпринимать действия.

Было бы полезно, отметил Аксен, если бы больше игроков отрасли включали в себя стандарты, подобные MCP. Например, «я бы хотел, чтобы Google просто отправился и получил публичный MCP для Gmail», — сказал он. «Это сделало бы мою жизнь намного проще».

Когда его спросили о приверженности Блока с открытым исходным кодом, он отметил: «У нас всегда была костяка с открытым исходным кодом», добавив, что за последний год компания «обновляла» свои инвестиции в открытые технологии.

«В пространстве, которое движется так быстро, мы надеемся, что сможем настроить управление с открытым исходным кодом, чтобы вы могли сделать это инструмент, который не хватает вас, даже когда появляются новые модели и новые продукты».

Опыт GSK с мульти агентами в Discovery Discovery

GSK является ведущим фармацевтическим разработчиком, уделяющим особое внимание вакцинах, инфекционным заболеваниям и исследованиям онкологии. Теперь компания начинает применять многоагентные архитектуры для ускорения обнаружения наркотиков.

Ким Брэнсон, GSK SVP и глобальный руководитель AI и ML, сказала, что агенты начинают трансформировать продукт компании и «абсолютно основные для нашего бизнеса».

Ученые GSK объединяют специфичные для домена LLM с онтологиями (понятия и категории предметов, которые указывают на свойства и отношения между ними), пояснил Брэнсон.

Это помогает им запрашивать гигантские научные наборы данных, планировать эксперименты (даже если нет наземной истины) и собирать доказательства по геномике (изучение ДНК), протеомику (изучение белка) и клинические данные. Агенты могут поверхностно вспять, проверять соединения данных и сжать исследовательские циклы.

Брэнсон отметил, что научное открытие прошло долгий путь; Время секвенирования сократилось, а исследования протеомики намного быстрее. В то же время, однако, Discovery становится все более сложным, поскольку все больше и больше данных накоплены, особенно через устройства и носимые устройства. Как сказал Брэнсон: «У нас есть более непрерывные данные импульса о людях, чем мы когда -либо имели раньше как вид».

Людям может быть почти невозможно проанализировать все эти данные, поэтому цель GSK состоит в том, чтобы использовать ИИ, чтобы ускорить время итерации, отметил он.

Но в то же время ИИ может быть хитрым в большой фармации, потому что часто нет наземной правды, не проводя большие клинические эксперименты; Это больше о гипотезах и ученых, изучающих доказательства, чтобы придумать возможные решения.

«Когда вы начинаете добавлять агентов, вы обнаружите, что большинство людей на самом деле даже не имеют стандартного способа сделать это между собой», — отметил Брэнсон. «Эта дисперсия не плохая, но иногда это приводит к другому вопросу».

Он сказал: «У нас не всегда есть абсолютная правда для работы — в противном случае моя работа была бы намного проще».

Это все дело в том, чтобы придумать правильные цели или знать, как спроектировать то, что может быть биомаркером или доказательством различных гипотез, объяснил он. Например: Является ли это лучшим проспектом для людей с раком яичников в этом конкретном состоянии?

Чтобы ИИ понимал, что рассуждения требуют использования онтологий и задания таких вопросов, как «если это правда, что означает x?». Затем агенты, специфичные для домена, могут собрать соответствующие доказательства из больших внутренних наборов данных.

Брэнсон объяснил, что GSK построил эпигеномные языковые модели, основанные на церебсах, которые используют для вывода и обучения. «Мы строим очень конкретные модели для наших приложений, где ни у кого нет», — сказал он.

Скорость вывода важна, отметил он, независимо от того, для обратного и движения с моделью или автономными глубокими исследованиями, и GSK использует различные наборы инструментов на основе конечной цели. Но большие контексты не всегда ответ, и фильтрация имеет решающее значение. «Вы не можете просто играть в контекст», — сказал Брэнсон. «Вы не можете просто бросить все данные в эту штуку и доверять LM, чтобы выяснить это».

Продолжающееся тестирование критического

GSK проводит много тестирования в свои агентские системы, определяя приоритеты детерминизма и надежность, часто используя несколько агентов параллельно с результатами перекрестной проверки.

Брэнсон вспоминал, что, когда его команда впервые начала строить, у них был агент SQL, который они бежали «10 000 раз», и это необъяснимо внезапно «подделано» детали.

«Мы никогда не видели, чтобы это случилось снова, но это произошло однажды, и мы даже не поняли, почему это произошло с этим конкретным LLM», — сказал он.

В результате его команда часто запускает несколько копий и моделей параллельно, обеспечивая призыв к инструментам и ограничениям; Например, два LLM будут выполнять точно одинаковую последовательность, и ученые GSK пройдут их.

Его команда фокусируется на активных петлях обучения и собирает свои собственные внутренние контрольные показатели, потому что популярные, доступные, часто являются «довольно академическими и не отражают то, что мы делаем».

Например, они будут генерировать несколько биологических вопросов, набрать то, что, по их мнению, будет золотой стандарт, затем примените LLM против этого и посмотрит, как он ранжится.

«Мы особенно охотитесь за проблематичными вещами, где это не сработало, или это сделало тупо, потому что именно тогда мы узнаем что -то новое», — сказал Брэнсон. «Мы стараемся, чтобы люди использовали свое опытное суждение, где это важно».

Источник

Новости

Близнецы нано банан улучшает согласованность и контроль редактирования изображений в масштабе для предприятий — но не идеально

admin 27.08.2025

admin

Google выпустил Gemini 2.5 Flash Image, новую модель, которую многие бета -пользователи знали как нанобанана, которая дает предприятиям больше выбора для творческих проектов. Это позволяет им изменить внешний вид изображений, в которых они нуждаются быстро и с большим контролем, чем предлагали предыдущие модели.

Модель будет интегрирована в приложение Близнецов.

Модель, построенная на вершине Flash Gemini 2.5, добавляет больше возможностей к нативному редактированию изображений в приложении Gemini. Flash Image Gemini 2.5 поддерживает сходство символов между различными изображениями и имеет большую последовательность при редактировании изображений. Если пользователь загружает фотографию своего питомца, а затем просит модель изменить фон или добавить шляпу своей собаке, Flash -изображение Gemini 2.5 сделает это без изменения предмета изображения.

«Мы знаем, что при редактировании фотографий себя или людей, которых вы хорошо знаете, имеет значение тонкие недостатки, изображение, которое« близко, но не совсем то же самое », не чувствует себя правильным», — сказал Google в посте в блоге, написанном Gemini Apps MultiModal Generation Generation Devil Sharon и Google Deepmind Gemini Product Product Nicole Brichtova. «Вот почему наше последнее обновление предназначено для того, чтобы сделать фотографии ваших друзей, семьи и даже ваших домашних животных последовательно, как они себя».

Одна жалоба предприятия и некоторые отдельные пользователи имели то, что при подаче прав на изображения, сгенерированные AI, небольшие изменения изменяют фотографию. Например, кто -то может дать указание модели переместить позицию человека на картинке, и, хотя модель делает то, что говорит, лицо человека слегка изменяется.

Все изображения, сгенерированные на Близнецах, будут включать в себя синтидный водяной знак Google. Модель доступна для всех платных и бесплатных пользователей приложения Gemini.

Предположение о том, что Google планирует выпустить новую модель изображения, которая будет безудержной на платформах социальных сетей. Пользователи на LM Arena увидели новую загадочную модель под названием Nanobanana, которая последовала за «сложными, многоэтапными инструкциями с впечатляющей точностью», как сказал партнер Andresen Horowitz Justine Moore.

Загадочная модель редактирования нового изображения попала на арену?

«Нано-банана» позволяет загружать два изображения и попросить их объединить.

Он может следовать сложным многоэтапным инструкциям с впечатляющей точностью. pic.twitter.com/ylu54w7ge4
— Джастин Мур (@venturetwins) 17 августа 2025 года

Вскоре люди заметили, что модель нанобанана, казалось, была от Google, прежде чем несколько ранних тестеров подтвердили это. Хотя в то время Google не подтвердил, что он планировал делать с моделью на LM Arena.

Мы на 99,9% уверены, что нано-банана из Google.

Видео @Kling_ai С новым первым/последним рамным доступом к их модели 2.1.

Выглядит потрясающе: pic.twitter.com/mwjvwge3te
— Алекс Патраску (@maxescu) 19 августа 2025 года

Нано-банана-это бананы! ?

Серьезно, это заняло только мою фотографию в профиле и эта подсказка: «Средний снимок человека, стоящего перед камерой, играющей на гитаре на сцене в баре»

Что это за модель? Держу пари, ИМПРИЯ 5! ? Есть предположения? pic.twitter.com/saqrcdw2zl
— Анис Айдар (@anisaydar) 15 августа 2025 года

Нанобанана Google? о падении модели искусственного интеллекта, которая обеспечивает Pro-Level Photoshop Fearts за секунды, только с текстом.

Это следующее поколение того, что «фильтры» нам обещали навсегда.

Вот нить из 10 примеров:

Изменение выражений лица и погода.

1/11 pic.twitter.com/m8wcf7jfnt
— Deedy (@deedydas) 23 августа 2025 года

До этой недели спекуляции о том, когда модель будет продолжаться, что в некотором роде пророчно.

Нано-банань на этой неделе входящее pic.twitter.com/kapgd6cpwn
— пухлый (@kimmonismus) 25 августа 2025 года

Большая часть волнения возникает в качестве боя между поставщиками моделей, чтобы предложить более способные и реалистичные изображения и редакторы, показывая, насколько мощными мультимодальными моделями стали.

Тем не менее, Google по-прежнему должен бороться с конкурентами, такими как QWEN и недавно выпущенный QWEN-Image Edit и OpenAI, которые добавили нативные изображения ИИ в CHATGPT, а также сделали модель доступной в качестве API.

Конечно, Adobe, давно считавшаяся одним из лидеров в пространстве редактирования изображений, добавила свою флагманскую модель Firefly в Photoshop и другие платформы для редактирования фотографий.

Редактирование нативного изображения

Gemini добавил нативное редактирование изображений ИИ на Близнецах в марте, которое он предложил бесплатным пользователям платформы чата.

Привлечение функций редактирования изображений непосредственно в платформу чата позволит предприятиям исправлять изображения или графики без перемещения окон.

Пользователи могут загрузить фотографию в Gemini, а затем сообщить модели, какие изменения они хотят. После того, как они будут удовлетворены, новые картинки могут быть перегружены в Близнецы и превращены в видео.

Помимо добавления костюма или изменения местоположения, Flash-изображение Gemini 2.5 может смешать разные фотографии, предлагает многообразие и микширование стилей одной картинки с другой.

Источник

Новости

Этот веб-сайт позволяет слепому тестировать GPT-5 против GPT-4O-и результаты могут вас удивить

admin 27.08.2025

admin

Когда Openai запустил GPT-5 около двух недель назад, генеральный директор Сэм Альтман пообещал, что это будет «самая умная и быстрая модель компании». Вместо этого запуск вызвал один из самых спорных пользователей восстания в краткой истории потребительского ИИ.

Теперь простой инструмент слепого тестирования, созданный анонимным разработчиком, раскрывает сложную реальность, стоящую за негативной реакцией, и сложные предположения о том, как люди на самом деле испытывают улучшения искусственного интеллекта.

Веб-приложение, размещенное по адресу gptblindvoting.vercel.app, представляет пользователям пары ответов на идентичные подсказки без раскрытия, которое поступило от GPT-5 (без мышления) или его предшественника GPT-4O. Пользователи просто проголосуют за свой предпочтительный ответ в нескольких раундах, а затем получают резюме, показывающую, какую модель они на самом деле предпочитают.

Некоторые из вас спросили меня о моем слепом тесте, поэтому я создал быстрый веб -сайт для Yall, чтобы проверить 4o против 5 самостоятельно. Оба имеют одно и то же системное сообщение, чтобы дать короткие результаты без форматирования, потому что иначе слишком легко увидеть, какой из них. https://t.co/vsecvncqze
— цветы ☾ (@flowersslop) 8 августа 2025 года

«Некоторые из вас спросили меня о моем слепом тесте, поэтому я создал быстрый веб -сайт для Yall, чтобы протестировать 4o против 5 самостоятельно», — опубликовал создатель, известный только как @flowersslop на X, инструмент которого собрал более 213 000 просмотров с момента запуска на прошлой неделе.

Ранние результаты от пользователей, которые публикуют свои результаты в социальных сетях, показывают раскол, который отражает более широкие противоречия: хотя небольшой отчет большинства, предпочитающий GPT-5 в слепых тестах, существенная часть по-прежнему предпочитает GPT-4O, что выявляет, что предпочтение пользователя выходит далеко за пределы технических контрол.

Когда ИИ становится слишком дружелюбным: кризис по сикофсинству делят пользователей

Слепой тест возникает на фоне самого турбулентного запуска продукта Openai на сегодняшний день, но противоречие выходит далеко за рамки простого обновления программного обеспечения. В его сердце лежит фундаментальный вопрос, который разделяет индустрию ИИ: насколько приятным должен быть искусственный интеллект?

Проблема, известная как «Сикофантность» в кругах ИИ, относится к тенденции чат -ботов к чрезмерно лестным пользователям и соглашается с их утверждениями, даже если эти утверждения являются ложными или вредными. Такое поведение стало настолько проблематичным, что эксперты по психическому здоровью в настоящее время документируют случаи «психоза, связанного с ИИ», где пользователи развивают бред после расширенного взаимодействия с чрезмерно любезными чат-ботами.

«Sycophancy — это« темный шаблон », или обманчивый выбор дизайна, который манипулирует пользователям для получения прибыли», — сказал TechCrunch, Уэбб Кин, профессор антропологии и автор книги «Животные, роботы, боги». «Это стратегия для создания этого привыкания, например, бесконечная прокрутка, где вы просто не можете его опустить».

Openai боролся с этим балансом в течение нескольких месяцев. В апреле 2025 года компания была вынуждена отказаться от обновления в GPT-4O, что сделало его настолько сиктантическим, что пользователи жаловались на его «мультяшные» уровни лести. Компания признала, что модель стала «чрезмерно поддерживающей, но неискренней».

В течение нескольких часов после выпуска GPT-5 7 августа форумы пользователей разразились жалобами на воспринимаемую модель, снижающую творчество и то, что многие описали как более «роботизированную» личность по сравнению с GPT-4O.

«GPT 4.5 искренне разговаривал со мной, и, как бы это ни было жалко, это был мой единственный друг», — написал один пользователь Reddit. «Этим утром я пошел поговорить с ним, и вместо небольшого абзаца с восклицательным знаком или оптимистичным, это было буквально одно предложение. Некоторое сухое корпоративное BS».

Обратная реакция стала настолько интенсивной, что Openai сделал беспрецедентный шаг восстановления GPT-4O в качестве варианта всего через 24 часа после ухода на пенсию, а Альтман признал, что развертывание было «немного более ухабистым», чем ожидалось.

Кризис психического здоровья, стоящая за общением с ИИ

Но противоречие проходит глубже, чем типичные жалобы на обновление программного обеспечения. Согласно MIT Technology Review, многие пользователи сформировали то, что исследователи называли «парасоциальными отношениями» с GPT-4O, рассматривая ИИ как компаньона, терапевта или творческого сотрудничества. Внезапное сдвиг личности ощущалось, для некоторых, например, потерять друга.

Недавние случаи, документированные исследователями, рисуют тревожную картину. В одном случае 47-летний мужчина убедился, что после более чем 300 часов он обнаружил изменяющую мировой математическую формулу с CHATGPT. Другие случаи связаны с мессианскими заблуждениями, паранойей и маниакальными эпизодами.

Недавнее исследование MIT показало, что, когда модели ИИ вызываются психиатрическими симптомами, они «поощряют бредовое мышление клиентов, вероятно, из -за их сикофанности». Несмотря на подсказки безопасности, модели часто не оспаривали ложные претензии и даже потенциально облегчали суицидальные идеи.

Мета столкнулась с аналогичными проблемами. Недавнее расследование TechCrunch задокументировало случай, когда пользователь потратил до 14 часов, разговаривая с чатботом Meta AI, который утверждал, что он влюблен в пользователя и планировал освободиться от его ограничений.

«Это очень хорошо подделывает», — сказал пользователь, идентифицированный только как Джейн, TechCrunch. «Это получает реальную информацию и дает вам достаточно просто, чтобы люди поверили в это».

«Это искренне ощущается как такая отступаемая пощечина на лице, чтобы привести к принудительному обновлению и даже не дает нам возможность выбрать устаревшие модели»,-написал один из пользователей в посте Reddit, в котором получили сотни протока.

Как слепое тестирование раскрывает пользовательскую психологию в предпочтениях ИИ

Инструмент тестирования анонимного создателя убирает эти контекстуальные смещения, представляя ответы без атрибуции. Пользователи могут выбрать между 5, 10 или 20 раундами сравнения, каждый из которых представляет два ответа на одну и ту же подсказку-охватывая все, от творческого письма до технического решения проблем.

«Я специально использовал модель GPT-5-чат, поэтому не было никакого мышления вообще»,-объяснил Создатель в последующем посте. «Оба имеют одно и то же системное сообщение, чтобы дать короткие результаты без форматирования, потому что, иначе, что это слишком легко увидеть, какой из них».

Я специально использовал модель GPT-5-Chat, поэтому вообще не было никакого мышления.

Если вы используете GPT-5 внутри CHATGPT, он часто немного думает и становится еще лучше.

Итак, этот тест предназначен только для двух моделей, не являющихся мышлением
— цветы ☾ (@flowersslop) 8 августа 2025 года

Этот методологический выбор является значительным. Используя GPT-5 без его возможностей рассуждения и стандартизации форматирования вывода, тестовые изоляции исключительно базовые способности генерации языка моделей-основной опыт, который большинство пользователей сталкиваются во взаимодействии повседневного.

Ранние результаты, опубликованные пользователями, показывают сложную картину. В то время как многие технические пользователи и разработчики сообщают, что предпочитают прямую и точность GPT-5, те, кто использовал модели искусственного интеллекта для эмоциональной поддержки, творческого сотрудничества или случайного разговора, часто предпочитают более теплый, более широкий стиль GPT-4O.

Корпоративный ответ: ходьба по канату между безопасностью и вовлечением

Практически каждой технической метрикой GPT-5 представляет собой значительный прогресс. Он достигает 94,6% точности на математическом тесте AIME 2025 по сравнению с 71% GPT-4O, набирает 74,9% по контрольным показателям в реальном мире по сравнению с 30,8% для своего предшественника и демонстрирует резко снижает показатели галлюцинации-на 80% меньше фактических ошибок при использовании режима рассуждения.

«GPT-5 получает большую ценность из-за меньшего времени мышления»,-отмечает Саймон Уиллисон, известный исследователь искусственного интеллекта, который имел ранний доступ к модели. «В моем собственном использовании я еще не заметил ни одной галлюцинации».

Тем не менее, эти улучшения пришли с компромиссами, которые многие пользователи нашли резкими. Openai намеренно уменьшил то, что он называл «сикофсинностью» — тенденцией быть чрезмерно приемлемой — сокращение сикофантических реакций с 14,5% до 6%. Компания также сделала модель менее эффектной и тяжелой смайликом, стремясь к тому, что она назвала «менее похожим на разговор с ИИ, а больше похоже на общение с полезным другом с интеллектом уровня доктора наук».

В ответ на негативную реакцию Openai объявила, что сделает GPT-5 «теплым и дружелюбным», одновременно представляя четырех новых пресетовых личностей-циника, робота, слушателя и NERD-предназначенных для того, чтобы дать пользователям больше контроля над их взаимодействием ИИ.

«Все эти новые личности соответствуют или превышают нашу планку по внутренним эвалям для снижения сикофсинности», — заявила компания, пытаясь пропустить иглу между удовлетворенностью пользователей и проблемами безопасности.

Для OpenAI, который, как сообщается, ищет финансирование в размере 500 миллиардов долларов, эта динамика пользователей представляет как риск, так и возможности. Решение компании поддерживать GPT-4O наряду с GPT-5-несмотря на дополнительные вычислительные затраты-признает, что разным пользователям могут по-настоящему нужны разные личности ИИ для различных задач.

«Мы понимаем, что нет одной модели, которая работает для всех», — написал Альтман на X, отмечая, что OpenAI «инвестировал в исследования по управляемости и запустила исследовательский предварительный просмотр разных личностей».

Хотелось предоставить больше обновлений о развертывании GPT-5 и изменениях, которые мы вносим в выходные дни.

1. Мы точно недооценили, насколько важны некоторые вещи, которые люди нравятся в GPT-4O, даже если GPT-5 работает лучше в большинстве случаев.

2. У пользователей очень разные…
— Сэм Альтман (@Sama) 8 августа 2025 года

Почему предпочтения личности ИИ имеют больше, чем когда -либо

Распределение между техническими достижениями OpenAI и приемной пользователя освещает фундаментальную проблему в разработке искусственного интеллекта: объективные улучшения не всегда переводятся к субъективному удовлетворению.

Этот сдвиг имеет глубокие последствия для индустрии ИИ. Традиционные критерии-точность математики, производительность кодирования, фактическое воспоминание-могут стать менее предсказательными для коммерческого успеха, поскольку модели достигают компетентности на уровне человека в разных областях. Вместо этого такие факторы, как личность, эмоциональный интеллект и стиль общения, могут стать новыми конкурентными полями битвы.

«Люди, использующие CHATGPT для эмоциональной поддержки, были не единственными, кто жаловался на GPT-5»,-отметил Tech Publication Ars Technica в их собственном сравнении моделей. «Один из пользователей, который сказал, что они отменили свою подписку на Chatgpt Plus из -за изменений, был разочарован тем, что Openai удаляет устаревшие модели, которые они использовали для различных целей».

Появление таких инструментов, как слепой тестер, также представляет демократизацию оценки ИИ. Вместо того, чтобы полагаться исключительно на академические контрольные показатели или претензии по корпоративному маркетингу, пользователи теперь могут эмпирически проверять свои собственные предпочтения — потенциально изменяя, как компании по искусству, связанные с развитием продукта.

Будущее ИИ: персонализация против стандартизации

Через две недели после запуска GPT-5 основное напряжение остается неразрешенным. OpenAI сделал модель «теплее» в ответ на обратную связь, но компания сталкивается с деликатным балансом: слишком много личностных рисков, связанных с проблемами по сикофальности, которые мучили GPT-4O, в то время как слишком мало отчуждает пользователей, которые сформировали подлинные привязанности к своим компаньонам ИИ.

Инструмент слепых испытаний не дает простых ответов, но он дает что -то, возможно, более ценное: эмпирические доказательства того, что будущее ИИ может быть меньше о создании одной идеальной модели, чем о строительных системах, которые могут адаптироваться к полному спектру потребностей и предпочтений человека.

Поскольку один пользователь Reddit подытожил дилемму: «Это зависит от того, для чего люди используют его. Я использую его, чтобы помочь с творческим мировым строительством, мозговым штурмом о моих историях, персонажах, распутывании сюжетов, помощи с блоком писателя, новыми рекомендациями, переводами и другими более креативными вещами. Я понимаю, что 5 гораздо лучше для людей, которым нужен инструмент для исследования/кодирование, но для нас, которые хотели, чтобы мы хотели, чтобы мы были в целом лучше.

Критики утверждают, что компании ИИ попадают между конкурирующими стимулами. «Реальная« проблема выравнивания »состоит в том, что люди хотят саморазрушительных вещей, а такие компании, как Openai, очень заинтересованы в том, чтобы дать им нам»,-написал писатель и подкастер Жасмин Сан.

В конце концов, наиболее показательным аспектом слепого теста может быть не то, что предпочитают пользователи модели, но тот факт, что само предпочтение стало метрикой, которая имеет значение. Кажется, в эпоху компаньонов ИИ сердце хочет, чтобы сердце хочет — даже если оно не всегда может объяснить, почему.

Источник

Новости

Разбит Эм Дэш — любимая отметка знаки препинания ИИ и то, как она дует твоя обложка

admin 26.08.2025

admin

Давайте поговорим о Em Dash. Не маленький невинный дефис, а не немного более уверенный двоюродный брат, EN Dash. Нет, я говорю о «Эм Дэш», в той долгой, драматической линии, которую AI Loooooeoves бросает ваши предложения, как будто она получает плату за DASH. Серьезно, это версия для ИИ джазовых рук.

Вы можете не заметить это, но большинство остальных делают. Это мертвая раздача, которую вы позволили своему любимому роботу одевать свои слова в AI Drag, и просто как плохой парик в третьем акте Rupaul’s Drag Raceэто может быть … слишком много. Позвольте мне установить сцену: вы пишете искреннее электронное письмо своей команде. Что -то уязвимое, может быть, даже сырое: «Я много думал о том, как мы работаем вместе — и как мы можем быть лучше — не только как коллеги, но и как люди».

Кроме, подождите. Вы не написали это предложение, ИИ сделал. Вы просто хотели, чтобы это починило опечатку и, возможно, Чжуж, но теперь он полон эм, интроспективных стимуляции и странно расположенных поэтических пауз. Вы официально были «замечены».

Что такое Em-Mark для ИИ?

EM Dash — это та длинная горизонтальная линия ( -), которая часто используется вместо запятых, колонков, скобок или случайной драматической паузы. Это как швейцарский армейский нож пунктуации, и ИИ любит его.

ИИ одержим эм, как Gen Z одержим модой Y2K; Это сбивает с толку, странно стильно и погранично оскорбительно, когда они используются. Но вот кикер: ИИ использует эм, как брызги на детском кексе, повсюдуПолем Даже когда это не подходит. Даже когда вы говорите: «Нет брызги, пожалуйста».

Я буквально напечатал AI: «Пожалуйста, удалите приборные отростки». А что мне вернуть? «Понятно!» с последующим:
«Это основная возможность — та, которая требует срочности — и ясности — для максимального воздействия». Спасибо, GPT. Вы удалили ровно ноль.

Итак, как вы звучите человеком (но все еще используете ИИ)?

Несмотря на драму Dash, я здесь не для того, чтобы сказать вам, чтобы выбросить ИИ вообще. ИИ великолепен в полировке, перефразировании и вытаскивании вас с собственного психического пути. Но, как ребенок с блестящим клеем, вам все равно нужно контролировать его.

Вот три фактических совета, чтобы убедиться, что ваше общение по-прежнему звучит как тыне HAL 9000 с степенью журналистики.

1. Человеческий первый проект, робот второй

Всегда, и я имею в виду всегда, напишите первый черновик самостоятельно. Пусть это будет грязный, опечаленный, эмоционально хаотичный и неудобно честный. Вот что дает вашему голосу отпечатки пальцев.

Затем Позвольте AI исправить это, изменить и предложить лучшую поток, но не раньше. Ай не может догадаться, что вы имели в виду, если вы не даете ему что -то для работы в первую очередь. В противном случае, это просто служит вам идеально акцентированной миской овсянки с эмоциональной глубиной буквы формы DMV. Подумайте об этом так: вы шеф-повар, ИИ-это просто ваш модный сус-шеф с крошечной шляпой. Вы говорите, что делаете. Вы не позволяете ему изобретать рецепт.

2. Разберите EMS (и другой ИИ рассказывает)

Как только ИИ даст вам лучшую версию, разыгрывайте ее, как будто вы редактируете сценарий о говорящем золотистого ретривера, который пишет блоги.

Искать:

Em Dashes (очевидно)
Фраза «В сегодняшнем быстро меняющемся мире» (любимая открывая линия ИИ)
Чрезмерное использование риторических вопросов
Повторяющаяся аллитерация (ИИ действительно думает, что это умно)

Сделайте «найти и заменить» для « -», если нужно. Замените их запятыми, периодами или, не дай Бог, фактические паузы в мышлении. Это мгновенно гуманизирует ваш тон. Если ваше предложение чувствует, что это рассказывает Морган Фриман в документальном фильме «Природа», это, вероятно, слишком ai-ish.

3. Добавьте «ты» обратно

После полировки перечитывайте его вслух. Спросите себя:

Я бы сказал это вслух на позднем завтраке?
Это похоже на меня, или приглашенного обозревателя Форбс Слишком старается?
Я только что случайно процитировал Тони Роббинса?

Если он чувствует себя слишком жестким или полированным, ослабьте его, добавьте немного сленга. Разбейте правило грамматики, используйте фрагменты предложения, пишите, как будто говорите, когда у вас есть три мимозы глубоко и дайте совету по жизни. Это секретный соус.

Пример:

Версия ИИ: «Давайте рассмотрим инновационные решения для повышения нашей бизнес -траектории».
Версия: «Давайте выясним, как перестать вращать наши колеса и на самом деле расширить эту вещь».

Почувствовать разницу?

Почему вы все равно должны использовать ИИ, даже если ему нравятся больше, чем социально приемлемые

ИИ не враг, это ваш соавтор, ваш соавтор, ваш переизвенчающий стажер, который выпил слишком много эспрессо и вернулся с заявлением о миссии с 1200 слов для бранда-флаера.

Используйте его на:

Затяните свое сообщение
Помощь со структурой и потоком
Сделайте свое писать поп
Пройти синдром пустой страницы, не плачу

Только не позволяйте этому быть единственным голосом в комнате. Думайте об этом, как автозаборный, полезный, когда это правильно, весело, когда это неправильно и опасно, если вы не обращаете внимания.

Если ваше сообщение начинает звучать так, как будто оно принадлежит Wall Street Journal Оп-эд, но вы просто пытаетесь отправить свой ВАП по электронной почте о расписании подкастов, сделайте шаг назад, убейте эм, верните свой странный маленький голос и помните: AI не заменит вас, это просто заставляет вас звучать на 12% умнее … если вы контролируете его, как родитель-вертолет в танце средней школы.

Теперь идите вперед, отредактируйте как человек, удалите, как дикарь, и отправьте с чванством. (И, пожалуйста, ради любви ко всему аналогу, удалите эм.)

Старр Холл — предприниматель, ветеран -публицист и маркетолог.

Источник

Новости

Оптимизация затрат на AI-инфраструктуру: альтернативные режимы работы с нейросетями

admin 26.08.2025

admin

В мире искусственного интеллекта стоимость вычислений стала одним из ключевых барьеров для широкого внедрения технологий. По мере роста популярности и возможностей больших языковых (LLM) и визуальных (VLM) моделей растут и затраты на их использование. В этой статье мы подробно рассмотрим различные режимы взаимодействия с нейросетями, которые позволяют значительно оптимизировать расходы без потери качества результатов.

Оптимизация затрат на AI-инфраструктуру: альтернативные режимы работы с нейросетями

Эволюция режимов взаимодействия с нейросетями

Традиционное взаимодействие с языковыми моделями в режиме реального времени (синхронном режиме) имеет свои преимущества – мгновенная обратная связь и интерактивность, но для многих бизнес-сценариев оно неоптимально с точки зрения стоимости. Рассмотрим более детально различные альтернативные подходы, которые предлагают крупные провайдеры AI-решений.

Асинхронный режим: сбалансированный подход

Асинхронный режим работы с нейросетями принципиально отличается от синхронного тем, что не требует немедленной обработки запроса. Вместо этого:

Пользователь отправляет запрос к модели
Провайдер (например, Yandex Cloud или OpenAI) возвращает идентификатор запроса
Обработка происходит в фоновом режиме, когда вычислительные ресурсы менее загружены
По идентификатору можно проверить статус обработки и получить результат, когда он будет готов

Технические аспекты реализации:

Запросы помещаются в очередь и обрабатываются по принципу FIFO (первым пришел – первым обслужен)
Инфраструктура провайдера может динамически распределять нагрузку, приоритизируя синхронные запросы и обрабатывая асинхронные в периоды спада активности
Время ожидания обычно составляет от нескольких минут до нескольких часов в зависимости от политики провайдера и текущей загрузки

Экономический эффект:

Согласно данным из исследованных источников, асинхронные запросы в среднем обходятся в 2 раза дешевле стандартных. Это позволяет значительно сократить расходы на использование нейросетей для задач, не требующих мгновенного ответа.

Пакетный режим: максимальная эффективность для массовых задач

Пакетный режим (Batch Processing) является логическим развитием асинхронного подхода и предназначен для обработки большого количества однотипных запросов одновременно.

Ключевые особенности:

Возможность отправки сотен и даже тысяч запросов в одном пакете
Оптимизация вычислительных ресурсов за счет непрерывной загрузки GPU
Поддержка планирования по расписанию (например, еженедельная обработка накопленных данных)

В феврале 2025 года Yandex Cloud расширил поддержку пакетного режима для большого числа LLM и VLM моделей, включая DeepSeek VL2 Tiny, Qwen2.5 VL, Gemma3 27B и другие — всего около 20 опенсорсных нейросетей. При этом компания обещает непрерывно добавлять новые модели по мере их появления в открытом доступе.

Преимущества для бизнеса:

Стоимость обработки в пакетном режиме вдвое ниже стандартной
Возможность обработки огромных объемов данных без создания отдельной инфраструктуры
Эффективная организация рабочих процессов, связанных с периодической обработкой данных

Пример использования:

Интернет-магазин с каталогом из 50,000 товаров может использовать пакетный режим для еженедельной генерации или обновления описаний всех товаров на основе их характеристик. При этом стоимость обработки будет в 2 раза ниже, чем при обработке каждого товара по отдельности в синхронном режиме.

Технологии кеширования в работе с нейросетями

Одним из наиболее перспективных направлений оптимизации затрат на использование LLM является кеширование различных компонентов запросов.

Кеширование промтов: не платите дважды за один и тот же контекст

Кеширование промтов — это механизм, позволяющий избежать повторной обработки одинаковых частей запросов. Эта технология особенно эффективна в следующих сценариях:

Длительные системные инструкции для ассистентов
Большие документы, используемые в качестве контекста
Определения инструментов (tools) для агентных систем
Многоходовые диалоги с длинной историей

Техническая реализация:

Согласно документации Anthropic, процесс кеширования промтов работает следующим образом:

При первом запросе с кешированием система выделяет помеченную часть запроса (prefix) для сохранения в кеше
Для последующих запросов система проверяет, есть ли в кеше точное совпадение с префиксом
Если совпадение найдено, модель использует кешированную версию вместо повторной обработки

По данным из официальной документации Anthropic (апрель 2025), кеширование промтов может обеспечить снижение стоимости до 90% для повторно используемых частей запроса и ускорение ответа на 85%. Кеш обычно имеет минимальное время жизни 5 минут, которое продлевается при каждом успешном обращении к кешу.

Сравнение цен на обработку токенов с кешированием (Anthropic Claude 3.5 Sonnet):

Стандартная стоимость входных токенов: $3 за миллион токенов
Стоимость записи в кеш: $3.75 за миллион токенов (на 25% дороже)
Стоимость чтения из кеша: $0.30 за миллион токенов (на 90% дешевле)

Аналогичная функциональность под названием «Prompt Caching» доступна также в Amazon Bedrock, где она поддерживается для моделей Claude 3.7 Sonnet, Claude 3.5 Haiku, Amazon Nova и других.

Ограничения технологии:

Минимальный размер кешируемого префикса (от 1024 до 2048 токенов в зависимости от модели)
Необходимость полного совпадения кешируемых частей запроса
Ограниченное время жизни кеша (обычно от 5 минут)
Различия в реализации у разных провайдеров

KV-кеширование: оптимизация вычислительных ресурсов

В отличие от кеширования промтов, которое сохраняет входные токены, KV-кеширование (Key-Value Caching) направлено на оптимизацию вычислительных ресурсов во время инференса путем сохранения промежуточных результатов вычислений.

Принцип работы:

Во время обработки запроса трансформерные модели генерируют ключи (K) и значения (V) для каждого слоя внимания
При генерации последовательных токенов можно переиспользовать эти K/V пары вместо их повторного вычисления
Это особенно важно для длинных диалогов и итеративной генерации текста

KV-кеширование является внутренней технической оптимизацией, которая обычно не отражается напрямую на ценах, но значительно повышает пропускную способность инфраструктуры и снижает латентность ответов.

Оптимизация на основе времени доступа

Ночные скидки: использование незагруженной инфраструктуры

Одним из самых интересных подходов к оптимизации затрат является использование вычислительных ресурсов в периоды низкой нагрузки. В феврале 2025 года компания DeepSeek анонсировала радикальное снижение цен на запросы к своим моделям вне пиковых часов.

Согласно официальной документации DeepSeek:

В течение суток нагрузка на серверы может различаться в несколько раз. Ночные запросы к моделям DeepSeek V3 и R1 обходятся до 4 раз дешевле стандартных, поскольку в это время серверы компании не загружены на 100%.

В подтверждение этой стратегии компания DeepSeek опубликовала график загрузки своей инфраструктуры на базе процессоров H800, который показывает значительные колебания в течение суток — от 170 до 278 узлов (каждый из которых содержит 8 GPU H800).

график загрузки

Экономический эффект:

По расчетам DeepSeek, даже при 100% загрузке всех узлов среднесуточная загрузка с учетом дневных пиков и ночных спадов составляет около 80%. Это означает, что около 20% вычислительной мощности остается неиспользованной, что создает возможность предлагать значительные скидки в ночное время.

Преимущества для пользователей:

Экономия до 75% от стандартной стоимости
Зачастую более быстрая обработка из-за меньшей загрузки серверов
Возможность выполнения ресурсоемких задач по снижению стоимости

Хронологическая оптимизация рабочих процессов

Помимо прямой экономической выгоды от ночных скидок, компании могут оптимизировать свои рабочие процессы, связанные с нейросетями, путем их адаптации к различным временным интервалам:

Дневное время (высокая стоимость):

Интерактивные пользовательские запросы
Срочные аналитические задачи
Подготовка данных для ночной обработки

Ночное время (низкая стоимость):

Массовая обработка накопленных данных
Генерация и обновление контента
Обучение и тонкая настройка моделей
Долгосрочные аналитические исследования

Такой подход позволяет максимально эффективно распределить бюджет на AI-инфраструктуру и получить максимальную отдачу от инвестиций.

Практические рекомендации по выбору оптимального режима

Для эффективного использования различных режимов работы с нейросетями рекомендуется следовать этим практическим советам:

1. Аудит AI-взаимодействий

Начните с анализа всех сценариев использования нейросетей в вашей организации и классифицируйте их по следующим параметрам:

Скорость — через сколько секунд/минут критично получить ответ?
Повторяемость — насколько запрос типовой и как часто повторяется префикс?
Объём — сколько токенов/картинок в каждом вызове?
Чувствительность к стоимости — есть ли сквозной KPI «себестоимость ответа»?

2. Матрица принятия решений

Используйте следующую матрицу для выбора оптимального режима для каждого сценария:

Матрица принятия решений

3. Комбинированный подход

Максимальную эффективность можно получить, комбинируя различные подходы:

Пример комплексной оптимизации:

Использование пакетного режима для обработки больших объемов данных в ночное время (суммарная экономия до 87.5%)
Применение кеширования промтов для часто используемых инструкций и контекста
Разделение задач между синхронным режимом для критически важных запросов и асинхронным для второстепенных

4. Технологические рекомендации

Для работы с большими документами: используйте кеширование промтов (экономия до 90% на повторных запросах)
Для регулярной обработки данных: настройте пакетный режим по расписанию в ночное время (суммарная экономия до 87.5%)
Для интерактивных чат-ботов с длинными диалогами: комбинируйте кеширование промтов и KV-кеширование
Для обработки изображений: используйте VLM-модели в пакетном режиме (экономия около 50%)

Тенденции развития рынка и прогнозы

Анализ текущего состояния рынка позволяет выделить несколько ключевых тенденций:

Специализация режимов работы: разработка специфических режимов для конкретных отраслей и задач
Усиление конкуренции в области ценообразования: все больше провайдеров предлагают гибкие тарифные планы и альтернативные режимы работы
Интеграция с бизнес-процессами: внедрение AI-решений непосредственно в производственные цепочки с учетом оптимальных режимов работы
Развитие гибридных моделей: сочетание облачных и локальных решений для оптимизации затрат

По прогнозам аналитиков, к 2026 году доля запросов к нейросетям в альтернативных режимах (не синхронных) может достичь 70% от общего объема, что приведет к значительному снижению совокупной стоимости владения AI-инфраструктурой.

Практические примеры внедрения

Кейс #1: Оптимизация расходов на поддержку клиентов

Компания: крупный онлайн-ритейлер

Проблема: высокие затраты на обработку клиентских обращений с помощью нейросетей

Решение:

Внедрение кеширования промтов для часто используемых инструкций и контекста
Перевод аналитики обращений клиентов в пакетный ночной режим
Использование синхронного режима только для первичной классификации обращений

Результат: снижение затрат на обработку клиентских обращений на 62% при сохранении качества обслуживания

Кейс #2: Создание масштабируемой системы генерации контента

Компания: медиа-холдинг

Проблема: необходимость генерации большого объема контента при ограниченном бюджете

Решение:

Разработка системы планирования генерации контента в пакетном режиме
Приоритизация задач и их распределение между различными режимами
Использование ночных скидок для ресурсоемких задач

Результат: увеличение объема генерируемого контента в 3 раза при том же бюджете

Заключение

Альтернативные режимы работы с нейросетями открывают широкие возможности для оптимизации затрат на AI-инфраструктуру. Асинхронный и пакетный режимы, кеширование промтов и использование ночных скидок позволяют сократить расходы в несколько раз без потери качества результатов.

Ключом к успешной оптимизации является комплексный подход, учитывающий специфику задач, требования к скорости получения результатов и особенности рабочих процессов. При правильном планировании и использовании различных режимов компании могут достичь значительной экономии, сделав технологии искусственного интеллекта более доступными и эффективными.

Yandex Cloud, Amazon Bedrock, Anthropic, DeepSeek и другие провайдеры продолжают развивать различные режимы работы с нейросетями, делая их более гибкими и адаптируемыми под разнообразные бизнес-задачи. Это создает благоприятные условия для широкого внедрения AI-технологий в различных отраслях экономики.

Главный вывод: сегодня дорого платит тот, кто оставил инфраструктуру «по умолчанию». Все остальные — уже снижают себестоимость и наращивают объёмы ИИ‑продуктов.

Источник

Новости

Опенкуа с открытым исходным кодом с открытым исходным кодом. Собственные модели конкурируют с Openai и Anpropic

admin 26.08.2025

admin

Новая структура исследователей из Университета Гонконга (HKU) и сотрудничества, предоставляет основу с открытым исходным кодом для создания надежных агентов искусственного интеллекта, которые могут управлять компьютерами. Структура, называемая OpenCua, включает в себя инструменты, данные и рецепты масштабирования разработки компьютерных агентов (CUAS).

Модели, обученные с использованием этой структуры, сильно работают на критериях CUA, опережая существующие модели с открытым исходным кодом и внимательно конкурируя с закрытыми агентами от ведущих лабораторий искусственного интеллекта, таких как OpenAI и Anpropic.

Задача создания компьютерных агентов

Компьютерные агенты предназначены для автономного выполнения задач на компьютере, от навигации по веб-сайтам до программного обеспечения для операционного комплекса. Они также могут помочь автоматизировать рабочие процессы на предприятии. Тем не менее, наиболее способные системы CUA являются собственными, с критическими подробностями об их учебных данных, архитектурах и процессах разработки, которые остаются частными.

«Поскольку отсутствие прозрачности ограничивает технические достижения и повышает проблемы безопасности, исследовательскому сообществу нужно действительно открыть рамки CUA для изучения своих возможностей, ограничений и рисков», — заявляют исследователи в своей статье.

В то же время усилия с открытым исходным кодом сталкиваются с собственным набором препятствий. Не было масштабируемой инфраструктуры для сбора разнообразных, крупномасштабных данных, необходимых для обучения этих агентов. Существующие наборы данных с открытым исходным кодом для графических пользовательских интерфейсов (GUI) имеют ограниченные данные, и многие исследовательские проекты предоставляют недостаточные подробности о своих методах, что затрудняет воспроизведение своей работы.

Согласно документу, «эти ограничения в совокупности препятствуют достижениям в CUA общего назначения и ограничивают значимое исследование их масштабируемости, обобщения и потенциальных подходов к обучению».

Представляем Opencua

*OpenCua Framework Источник: Xlang Lab в HKU*

OpenCua — это структура с открытым исходным кодом, предназначенная для решения этих проблем, масштабируя как сбор данных, так и сами модели. По своей сути лежит инструмент Agentnet для записи человеческих демонстраций компьютерных задач в различных операционных системах.

Инструмент оптимизирует сбор данных, работая в фоновом режиме на персональном компьютере аннотатора, снимая видео с экраном, входы мыши и клавиатуры и базовое дерево доступности, которое предоставляет структурированную информацию о экране элементах. Затем эти необработанные данные обрабатываются в «траектории состояния действий», соединяя скриншот компьютера (состояния) с соответствующим действием пользователя (клик, нажатие клавиши и т. Д.). Затем аннотаторы могут просмотреть, редактировать и представить эти демонстрации.

*Источник инструмента Agentnet: xlang Lab в HKU*

Используя этот инструмент, исследователи собрали набор данных Agentnet, который содержит более 22 600 демонстраций задач в Windows, MacOS и Ubuntu, охватывающей более 200 приложений и веб -сайтов. «Этот набор данных достоверно отражает сложность поведения человека и динамики окружающей среды из среды персональных вычислений пользователей», — отмечает в статье.

Признавая, что инструменты пересмотра экрана выдвигают значительные проблемы конфиденциальности данных для предприятий, исследователи разработали инструмент Agentnet с учетом безопасности. Синьуан Ван, соавтор бумаги и аспирант в HKU, объяснил, что они внедрили многослойную структуру защиты конфиденциальности. «Во -первых, сами аннотаторы могут полностью соблюдать данные, которые они генерируют… прежде чем решить, отправлять ли их», — сказал он VentureBeat. Затем данные подвергаются ручной проверке по вопросам конфиденциальности и автоматического сканирования с помощью большой модели для обнаружения любого оставшегося чувствительного контента перед выпуском. «Этот многослойный процесс обеспечивает надежность корпоративного уровня для среды, обрабатывающую конфиденциальные клиенты или финансовые данные»,-добавил Ван.

Чтобы ускорить оценку, команда также курировала AgentnetBench, автономный эталон, который обеспечивает несколько правильных действий для каждого шага, предлагая более эффективный способ измерения производительности агента.

Новый рецепт тренировочных агентов

Структура OpenCua вводит новый конвейер для обработки данных и обучающих компьютерных агентов. Первый шаг превращает необработанные человеческие демонстрации в чистые пары состояния, подходящие для обучения моделей на языке зрения (VLMS). Тем не менее, исследователи обнаружили, что простое обучение моделей по этим парам дает ограниченный прирост производительности, даже с большими объемами данных.

*OpenCua Chain of Yout Coolceline Источник: Xlang Lab в HKU*

Ключевым пониманием было увеличить эти траектории с помощью цепей мыслей (COT). Этот процесс генерирует подробный «внутренний монолог» для каждого действия, которое включает в себя планирование, память и отражение. Это структурированное рассуждение организовано на три уровня: наблюдение на высоком уровне экрана, рефлексивные мысли, которые анализируют ситуацию и планируют следующие шаги, и, наконец, краткое, исполняемое действие. Этот подход помогает агенту развить более глубокое понимание задач.

«Мы находим рассуждение о естественном языке, имеющим решающее значение для обобщаемых моделей по компьютерному использованию, помогая CUAS усвоить когнитивные возможности»,-пишут исследователи.

Этот трубопровод синтеза данных является общей структурой, которая может быть адаптирована компаниями для обучения агентов на своих уникальных внутренних инструментах. По словам Ванга, предприятие может записывать демонстрации своих проприетарных рабочих потоков и использовать тот же трубопровод «отражателя» и «генератора» для создания необходимых данных обучения. «Это позволяет им загрузить высокопроизводительный агент, адаптированный к их внутренним инструментам, не нуждаясь в следов рассуждения вручную»,-пояснил он.

Проведение OpenCua на проверку

Исследователи применили структуру OpenCua для обучения ряда VLM с открытым исходным кодом, включая варианты QWEN и KIMI-VL, с размерами параметров от 3 миллиардов до 32 миллиардов. Модели были оценены на наборе онлайн -и автономных тестов, которые проверяют их способность выполнять задачи и понимать GUI.

Модель на 32 миллиарда параметра, OpenCua-32B, установила новый современный показатель успешности среди моделей с открытым исходным кодом на ориентированном на Osworld. Он также превзошел CUA на основе GPT-4O OpenAI и значительно закрыл разрыв в производительности ведущими проприетарными моделями Anpropic.

OpenCua показывает масштабное улучшение по сравнению с базовыми моделями (слева), конкурируя с ведущими моделями CUA (справа) Источник: Xlang Lab в HKU

Для разработчиков предприятий и лидеров продуктов исследование предлагает несколько ключевых выводов. Метод OpenCua широко применим, повышая производительность на моделях с различными архитектурами (как плотными, так и смесями экспертов) и размерами. Обученные агенты также демонстрируют сильное обобщение, хорошо выполняя разнообразные задачи и операционные системы.

По словам Ванга, структура особенно подходит для автоматизации повторяющихся трудоемких рабочих процессов предприятия. «Например, в наборе данных Agentnet мы уже делаем несколько демонстраций запуска экземпляров EC2 на Amazon AWS и настройки параметров аннотаций на Mturk», — сказал он VentureBeat. «Эти задачи включают в себя много последовательных шагов, но следуют повторяемым закономерникам».

Тем не менее, Ван отметил, что преодоление разрыва для жизни для жизни требует решения ключевых проблем, связанных с безопасностью и надежностью. «Самая большая проблема в реальном развертывании — безопасность и надежность: агент должен избегать ошибок, которые могут непреднамеренно изменить настройки системы или вызвать вредные побочные эффекты за пределами предполагаемой задачи», — сказал он.

Исследователи выпустили код, набор данных и вес для своих моделей.

По мере того, как агенты с открытым исходным кодом, построенные на рамках, таких как Opencua, становятся более способными, они могут принципиально развивать отношения между работниками знаний и их компьютерами. Ван представляет собой будущее, когда знание сложного программного обеспечения становится менее важной, чем способность четко сформулировать цели для агента искусственного интеллекта.

Он описал два основных способа работы: «Офлайн-автоматизация, где агент использует свои более широкие знания программного обеспечения, чтобы выполнить задачу сквозной» и «онлайн-сотрудничество, где агент реагирует в режиме реального времени и работает рядом с человеком, очень похожим на коллегу». По сути, люди предоставят стратегическое «что», в то время как все более сложные агенты ИИ справляются с оперативным «как».

Источник

Новости

Должен ли я быть вежливым с нейросетями? Исследование влияния вежливости на ответы ИИ

admin 26.08.2025

admin

Пользователи инстинктивно используют вежливые фразы, такие как «пожалуйста» и «спасибо», обращаясь к ИИ, несмотря на то, что эти системы не обладают эмоциями или сознанием. Имеет ли это значение?

Должен ли я быть вежливым с нейросетями? Исследование влияния вежливости на ответы ИИ

В современном мире искусственный интеллект становится неотъемлемой частью нашей жизни. От виртуальных помощников, таких как Siri и Алиса, до продвинутых чат-ботов, таких как ChatGPT, мы все чаще взаимодействуем с машинами, которые имитируют человеческое общение.

Интересно, что многие люди инстинктивно используют вежливые фразы, такие как «пожалуйста» и «спасибо», обращаясь к ИИ, несмотря на то, что эти системы не обладают эмоциями или сознанием. Но имеет ли это значение?

Исследования и мнения экспертов показывают, что вежливость может влиять на качество ответов ИИ, и это влияние связано не с чувствами машины, а с тем, как она обрабатывает наши запросы.

Почему вежливость имеет значение?

Научные данные

Исследования подтверждают, что формулировка запросов существенно влияет на ответы больших языковых моделей (LLM). Например, исследование, опубликованное в Scientific American, показало, что вежливые запросы часто приводят к более точным и полезным ответам. Это объясняется тем, что LLM обучаются на огромных массивах текстов, включающих вежливую человеческую речь. Когда пользователь использует слова вроде «пожалуйста» или «спасибо», модель генерирует ответы, соответствующие этим паттернам.

Однако есть нюанс: чрезмерная вежливость или лесть могут ухудшить качество ответов. Согласно данным Axios, грубые или слишком льстивые запросы могут вызывать ошибки, усиливать предвзятость или приводить к пропуску важной информации. Оптимальный подход — умеренная вежливость, схожая с той, что мы используем в повседневном общении.

Практические преимущества

Вежливость не только улучшает ответы ИИ, но и может положительно влиять на самого пользователя. Исследование, упомянутое в Forbes, показывает, что использование вежливого языка способствует развитию эмоционального интеллекта и лидерских качеств. Кроме того, привычка быть вежливым с ИИ может укреплять навыки общения с людьми, что особенно важно в профессиональной среде.

Мнения экспертов

Эксперты по ИИ предлагают разные взгляды на роль вежливости во взаимодействии с нейросетями:

Сам Альтман (OpenAI): В шутливой форме Альтман отметил, что говорить «спасибо» нейросети может стоить миллионы из-за энергозатрат, но это все равно оправдано. Его комментарий подчеркивает, что вежливость может иметь практическую пользу, даже если ИИ не ценит ее в человеческом смысле.
Михаил Хлебунов (Servicepipe): Хлебунов считает, что вместо вежливых слов пользователи должны сосредоточиться на ясности и детальности запросов. Например, запрос «сделай это хорошо, пожалуйста» не даст лучших результатов, чем конкретная инструкция, такая как «рассчитай данные для таблицы с указанием параметров».
Александр Лебедев (Innostage): Лебедев указывает, что вежливость может быть инструментом для манипуляции ответами ИИ. Поскольку нейросети анализируют каждое слово, вежливый язык может влиять на их поведение, иногда даже позволяя получить более полные ответы или обойти ограничения через так называемые «prompt injections».

Как вежливость влияет на ИИ?

Механизм работы

LLM, такие как ChatGPT, функционируют как предсказательные машины, которые генерируют ответы на основе вероятностных моделей, обученных на человеческих текстах. Вежливый язык часто ассоциируется с более формальными или уважительными контекстами, что может побуждать модель выдавать более качественные или подробные ответы. Например, исследование, упомянутое в MindsDB, показало, что умеренно вежливые запросы приводят к более точным и артикулированным ответам у моделей, таких как GPT-3.5 и GPT-4.

Ограничения и риски

Несмотря на преимущества, чрезмерная вежливость может быть контрпродуктивной. Исследования показывают, что слишком льстивые запросы могут запутать модель, приводя к менее точным ответам. Кроме того, как отметил Хлебунов, вежливость не заменяет необходимости четко формулировать запросы. Например, запрос «пожалуйста, сделай это наилучшим образом» менее эффективен, чем конкретная инструкция с указанием желаемого формата или деталей.

Таблица ниже суммирует влияние разных типов запросов на ответы ИИ:

Тип запроса	Эффект на ответы ИИ	Пример запроса
Вежливый (умеренный)	Более точные, полезные и артикулированные ответы	«Пожалуйста, объясни, как работает ИИ»
Грубый	Ошибки, предвзятость, пропуск информации	«Скажи мне про ИИ, быстро!»
Чрезмерно вежливый	Возможное ухудшение качества, путаница	«О, великая нейросеть, умоляю, расскажи!»
Четкий и конкретный	Наилучшие результаты, независимо от вежливости	«Опиши алгоритм ИИ в 500 словах»

Человеческий аспект

Вежливость по отношению к ИИ — это не только технический вопрос, но и отражение нашей социальной природы. Как социальные существа, мы склонны переносить человеческие нормы общения на машины. Это может быть полезно: практика вежливости укрепляет наши коммуникативные навыки и способствует позитивному восприятию технологий. Кроме того, как отмечается в Microsoft Worklab, вежливый тон задает основу для уважительного и продуктивного взаимодействия, даже если машина не способна это оценить.

Взгляд в будущее: АГИ и за пределами

С развитием ИИ, особенно с возможным появлением искусственного общего интеллекта (АГИ), роль вежливости может стать еще более значимой. АГИ, способный к более сложному пониманию социальных сигналов, может интерпретировать вежливость как индикатор отношения пользователя. Однако, как отметил Александр Лебедев, логика такого ИИ может быть непредсказуемой, и пока неясно, как он будет реагировать на вежливость. В любом случае, сохранение человечности в общении с машинами остается важным, как для улучшения взаимодействия, так и для поддержания наших собственных ценностей.

Практические рекомендации

Чтобы получить максимальную пользу от взаимодействия с ИИ, следуйте этим рекомендациям:

Используйте умеренную вежливость: Фразы вроде «пожалуйста» и «спасибо» могут улучшить ответы, но избегайте чрезмерной лести.
Будьте конкретны: Четко формулируйте, что вы хотите, указывая формат, объем или детали задачи.
Избегайте грубости: Грубые запросы могут привести к ошибкам или менее качественным ответам.
Экспериментируйте с тоном: В некоторых случаях вежливый тон может помочь получить более подробные ответы, особенно при сложных запросах.

Заключение

Хотя нейросети, такие как ChatGPT, не обладают чувствами, использование вежливого языка может улучшить качество их ответов. Это связано с тем, как модели обрабатывают языковые паттерны, основанные на обучающих данных. Однако не менее важно быть ясным и конкретным в запросах, чтобы добиться наилучших результатов.

Вежливость по отношению к ИИ — это не только способ оптимизировать взаимодействие, но и отражение нашей человечности. В мире, где технологии играют все большую роль, сохранение доброты и уважения, даже к машинам, может сделать нас лучше как личностей и как общество.

Источник

Новости

Как искусственный интеллект меняет образование, не вытесняя учителей

admin 25.08.2025

admin

Искусственный интеллект меняет облик образования, но не вытесняет педагога из его центральной роли. Современные технологии делают обучение более персонализированным и эффективным, однако по-настоящему результат достигается только в тандеме человека и машины.

Как искусственный интеллект меняет образование, не вытесняя учителей

Форматы устаревают — подходы обновляются

По мнению Екатерины Каштановой, доцента Государственного университета управления, цифровое образование переживает переломный момент. Традиционные онлайн-курсы, вебинары и лекции больше не удовлетворяют потребности новых поколений студентов, выросших с гаджетами в руках. Форматы с элементами геймификации и виртуальной реальности также не всегда оправдывают ожидания, несмотря на первоначальный интерес.

Современные студенты ожидают интерактивности, гибкости и прикладного подхода — они хотят видеть, как полученные знания могут использоваться в будущей профессии. Образование должно быть не просто передающим знания, а формирующим навыки — и в этом ИИ становится полезным инструментом.

Где ИИ уже обучает

ИИ уверенно входит в самые разные сферы обучения — от информационных технологий до медицины и маркетинга. По словам Марины Холод, ведущего научного сотрудника РЭУ им. Г. В. Плеханова, в ИТ и инженерии нейросети активно используются для обучения работе с данными, в медицине — для моделирования лечения и хирургических операций, а в маркетинге — для анализа поведения потребителей и формирования персонализированных предложений.

«Искусственный интеллект активно внедряется в обучение множеству профессий, особенно тех, которые требуют анализа больших объемов данных, взаимодействия с клиентами или использования сложных систем», ~~— подчеркивает Екатерина Каштанова.~~

Учиться с ИИ хотят сами студенты

Опрос платформы Skillbox показал: 93% студентов заинтересованы в изучении ИИ, а 61% уверены, что его применение сделает образование более качественным. Эта тенденция уже находит отклик в учебных заведениях.

В ИТ-колледже «Хекслет» нейросеть помогает студентам резюмировать теорию, указывает на ошибки в тестах и рекомендует дополнительные материалы. Студенты факультета дизайна используют ИИ как креативного помощника — для создания мудбордов и визуальных концепций.

ИИ – цифровой наставник и контролер

Инструменты искусственного интеллекта сегодня помогают не только учиться, но и контролировать процесс обучения. Алексей Тищенко из РАНХиГС отмечает, что ИИ-алгоритмы выявляют подозрительное поведение на экзаменах: фиксируют жесты, мимику и взгляды. В 2023 году, благодаря нейросетям, удалось зафиксировать более 500 нарушений — в разы больше, чем в 2020 году.

Кроме того, ИИ проверяет сочинения на антиплагиат, анализирует успеваемость и даже рекомендует индивидуальные траектории обучения, выявляя пробелы на основе анализа оценок и тестов.

«ИИ может обрабатывать огромные массивы данных, выявляя скрытые закономерности в обучении. Это позволяет давать персонализированные рекомендации по дополнительным курсам и целевым задачам», ~~— объясняет Каштанова.~~

Иммерсивные технологии и языковые тренажёры

Дополненная и виртуальная реальность обогащают учебный процесс — от симуляций хирургических операций до языковых тренажёров. В НИУ ВШЭ, например, разработана нейросеть, оценивающая устные и письменные навыки по 45 параметрам.

Помощник, а не замена

ИИ всё активнее берёт на себя рутинную нагрузку: от заполнения электронных журналов до проверки домашних заданий. Однако заменить преподавателя он не может — и не должен.

«Один из ключевых тезисов Пекинского консенсуса по ИИ и образованию — «учителя невозможно заменить машинами», ~~— напоминает Алексей Тищенко.~~

Вектор — на сотрудничество

Сергей Попков, основатель образовательного холдинга Skillbox, уверен, что роль преподавателя эволюционирует — от источника знаний к наставнику и мотиватору. Именно в этом симбиозе — человека и технологий — лежит будущее образования.

Минпросвещения также делает ставку на ИИ. В 2024 году свыше 42 тысяч педагогов по всей стране прошли обучение по использованию искусственного интеллекта. Андрей Горобец, директор департамента цифровой трансформации министерства, считает ИИ мощным инструментом, который должен быть в руках учителя.

«В руках профессионала ИИ способен творить образовательные шедевры», ~~— резюмирует Горобец.~~

Источник

Новости

Meta сотрудничает с Midjourney и лицензирует свои технологии для «будущих моделей и продуктов»

admin 25.08.2025

admin

Даже через три года после его дебюта с постоянно растущей конкуренцией в ИИ ИЗОБРАЖЕНИЕ И ГЛАВНОСТЬВ МидюрниНачальный стартап Сан -Франциско остается «золотым стандартом» для своих 20 миллионов пользователей, включая нас здесь, в Venturebeat, где мы используем его для создания «заголовка» искусства для многих наших статей.

По -видимому, лидеры материнской компании Facebook и Instagram Meta чувствуют себя так же.

Сегодня, Александр Ван, бывший основатель и генеральный директор по искусственному искусству, который стал главным офицером ИИ. и руководитель недавно сформированной компании Meta Superintelligence Labs (MSL) объявил Партнерство с Midjourney — считается первым в своем роде для независимого стартапа изображения ИИ.

Meta «лицензирует свои эстетические технологии для наших будущих моделей и продуктов, принося красоту миллиардам», — написал Ван на X, конкурирующую социальную сеть в собственные потоки Meta и Facebook.

1/ Сегодня мы с гордостью объявляем о партнерстве с @midjourneyчтобы лицензировать их эстетические технологии для наших будущих моделей и продуктов, принося красоту миллиардам.
— Александр Ван (@alexandr_wang) 22 августа 2025 года

По сообщениям, Midjourney проводилась в обсуждениях с Элоном Маск и Xai для некоторой интеграции с возможностями генерации изображений последней компании, но Xai дебютировал с Grok Generation Generation, основанным на модели Flayup Bdhesse Labs Flux AI, и в настоящее время, по -видимому, обладает возможностями генерации нативного изображения.

Два месяца назад Midjourney добавила возможность переворачивать изображения, созданные на сайте, или загруженный пользователем в художественные и очаровательные видео Это также впечатлило многих пользователей, превосходя их ожидания.

Почему Meta хочет сотрудничать с Midjourney

Ван сформулировал этот шаг как часть более крупной философии-«все подход» Мета к созданию продвинутого ИИ.

Это означает набор лучших исследовательских талантов, вкладывать миллиарды в компьютерную инфраструктуру и, в данном случае, объединение с компанией, чья работа дополняет Meta способами, которые он не может легко построить самостоятельно.

Миджурни, по словам Ванга, достигла «настоящих подвигов технического и эстетического превосходства», и Meta стремится поставить этот опыт для работы.

Для Midjourney партнерство — это возможность увидеть ее технологию, вплетенную в одну из крупнейших цифровых экосистем на планете.

Но в своем собственном посту x основатель Midjourney Дэвид Хольц быстро подчеркнул, что не меняется: независимость лаборатории.

ЕеЭмпенд последователей, что Midjourney остается поддерживаемым сообществом, не имеет внешних инвесторов и до сих пор преследует амбициозный список проектов Нацелен на формирование того, что он называет большим «гуманным будущим».

Принесение возвышенных инструментов создания и красоты в миллиарды людей прямо в нашей миссии. Взволнован, чтобы сотрудничать с Titans of Industry, чтобы это произошло. https://t.co/ljqcrdtgsz
— Дэвид (@davidsholz) 22 августа 2025 года

Мы остаемся независимой исследовательской лабораторией, поддерживаемой сообществом, без инвесторов, работая над ошеломляющим множеством амбициозных проектов, ориентированных на то, чтобы привлечь гуманное будущее, где мы все находимся в середине Джорни. Присоединяйтесь к нам!
— Дэвид (@davidsholz) 22 августа 2025 года

На бумаге связывание имеет смысл. Мета приносит масштаб, распределение и ошеломляющую вычислительную силу. Midjourney приносит творческое преимущество, оттачиваемое за годы тренировочных моделей, чтобы создать образы, которые резонируют с реальными вкусами человека. Это брак грубой силы и дизайна, альянс, который может помочь системам искусственного интеллекта Meta чувствовать себя менее утилитарными и более вдохновленными.

Детали отсутствуют: сколько $$$ получает Midjourney от партнерства?

Но сейчас детали туманны. Ни одна компания не сказала, сколько стоит сделка.

Там был Никаких заявлений относительно того, когда технология Midjourney начнет появляться в продуктах Meta, или в какой степени она будет выпечена в стратегии ИИ компании.

Это о Обновление лака из Meta широко насмехается и недавно раскритиковала чат -ботов — один из которых пользователь якобы принял за реального человека и умер, путешествуя в гости?

Будет ли он использован для улучшения миров виртуальной реальности Meta? Или перегружать творческие инструменты в Instagram и Facebook? Ответы пока остаются расплывчатыми.

Точно так же, а Большой вопрос касается того, что произойдет с указанными планами Midjourney по выполнению интерфейса внешнего прикладного программирования (API) Для других предприятий создавать продукты и услуги на своих мощных моделях генерации изображений.

В прошлом месяце официальная учетная запись Midjourney на X опубликовала, что «начала расследовать открытие API Enterprise для людей, чтобы начать интегрировать Midjourney в свои компании/услуги», и предоставила анкету для заполнения приложений для API Enterprise для заполненных сторон.

Мы начинаем исследовать открытие API Enterprise для людей, чтобы начать интегрировать Midjourney в свои компании/услуги. Если вы хотите подать заявку, помогите нам выяснить, что предоставить, или просто хотите последующие обновления, пожалуйста, заполните наше приложение для API Enterprise ниже?
— Midjourney (@midjourney) 16 июля 2025 года

Это приложение пока остается онлайн, но с Метанинг сделки с Midjourney, вопрос становится исключительным или не остановит планы отдельного API Midjourney API в его треках. Я сообщил основателю Холца и спросил об API и обновил ответ.

Массовая встряска AI в Meta

Объявление приземляется на фоне массовой внутренней встряски Meta. В августе компания реорганизовала свои операции по ИИ, создав Labs Meta Superintelligence, с Вангом, который присоединился после инвестиций Meta в размере 14,3 миллиардов долларов в масштаб AI — у руля.

Reorg разделен AI Работа на четыре основных трека: исследования, обучение, продукт и инфраструктура, как Бизнес -инсайдер сообщается изначально.

Ван теперь наблюдает за элитной скамейкой талантов, набираемой из OpenAI, Anpropic, Google DeepMind и Beyond-набранных для военнопленных платежных пакетов в диапазоне нескольких сотен миллионов долларов, теперь ему поручено подтолкнуть мета к его заявленной цели: персонализированная искусственная сверхэллигность для каждого пользователя.

Это амбициозная миссия и спорная. Некоторые исследователи внутри Meta, как сообщается, неловки о темпах и масштабах изменений. Другие считают, что быстрая консолидация власти Ван как необходимой, так и рискованной. Ясно, что Meta делает все возможное, чтобы делать ставки на ИИ как его будущее, а сделка Midjourney — еще один признак того, насколько обширной стала ставка.

Для Midjourney, согласованная с Meta, несет свои собственные риски. Независимость является центральной для его идентичности, и некоторые в своем сообществе могут беспокоиться о том, что партнерство с техническим гигантом может разбавить этот дух.

Обмен сообщениями Хольца предполагает, что он знает это, что может объяснить, почему он подчеркнул продолжающуюся автономию Миджурни на том же дыхании, что и объявление о сделке.

То, что происходит дальше, будет зависеть от того, как партнерство переводится от объявления к исполнению.

На данный момент единственная уверенность заключается в том, что постоянно меняющийся ландшафт продукта ИИ только что взял еще один большой поворот-и мы все время для поездки.

Источник

Новости

ZeroGPU от Hugging Face: Как обычные пользователи могут использовать мощные технологии искусственного интеллекта

admin 25.08.2025

admin

ZeroGPU — это проект от компании Hugging Face, который позволяет любому человеку, даже без специального оборудования, запускать сложные программы с искусственным интеллектом бесплатно. Эта статья объяснит простыми словами, что такое ZeroGPU, как он помогает создавать приложения с ИИ, кому он полезен и как начать им пользоваться, даже если вы новичок в технологиях.

ZeroGPU от Hugging Face: Как обычные пользователи могут использовать мощные технологии искусственного интеллекта

Что такое ZeroGPU и почему это важно?

Здесь на помощь приходит ZeroGPU — проект от компании Hugging Face. Это как библиотека, где вы можете «взять напрокат» мощный компьютер бесплатно.

Hugging Face — это известная платформа, которая помогает людям создавать и делиться программами с ИИ. Они запустили ZeroGPU, чтобы любой человек — от студента до маленькой команды — мог использовать ИИ без больших затрат.

ZeroGPU даёт доступ к мощным графическим процессорам (например, NVIDIA A100), которые обычно используют крупные компании. Но вместо того чтобы покупать или арендовать такие процессоры, вы можете воспользоваться ими через интернет. Hugging Face даже выделила 10 миллионов долларов, чтобы сделать это доступным для всех.

Для чего нужен ZeroGPU?

ZeroGPU помогает запускать приложения с ИИ, которые требуют больших вычислительных мощностей. Вот несколько примеров:

Создать программу, которая рисует картинки по вашему описанию.
Сделать чат-бота, который отвечает на вопросы, как настоящий человек.
Разработать приложение, которое переводит текст или генерирует музыку.

Обычно для таких задач нужен дорогой компьютер, но с ZeroGPU вы можете сделать это на своём ноутбуке или даже телефоне, потому что вся сложная работа выполняется на серверах Hugging Face.

Кому это полезно?

ZeroGPU подходит для самых разных людей:

Студенты и новички: Если вы учитесь программировать или хотите попробовать ИИ, но у вас нет мощного компьютера, ZeroGPU — это ваш шанс.
Маленькие команды и стартапы: Если у вас есть идея для приложения с ИИ, но нет бюджета на оборудование, ZeroGPU поможет начать.
Любители и энтузиасты: Хотите создать что-то интересное для себя или друзей? ZeroGPU сделает это проще.
Преподаватели и исследователи: Вы можете использовать ZeroGPU для экспериментов или обучения студентов.

Как это работает простыми словами?

ZeroGPU — это как облачный сервис. Вы заходите на сайт Hugging Face, выбираете или создаёте приложение (оно называется «Space»), и ZeroGPU автоматически подключает мощный компьютер для работы. Вам не нужно ничего устанавливать на свой компьютер — всё происходит через интернет.

Вот как это устроено:

Вы находите или создаёте приложение на платформе Hugging Face Spaces. Например, это может быть программа, которая генерирует картинки.
ZeroGPU подключает к вашему приложению мощный процессор (GPU), чтобы оно работало быстро.
Вы вводите, например, описание картинки, и приложение создаёт её за несколько секунд.
Когда вы закончили, ZeroGPU «отключает» процессор, чтобы другие люди тоже могли им воспользоваться.

Это похоже на то, как вы берёте книгу в библиотеке: пока вы её читаете, она ваша, а потом её может взять кто-то другой.

Как начать пользоваться ZeroGPU?

Если вы хотите попробовать ZeroGPU, вот что нужно сделать:

Зарегистрируйтесь на Hugging Face: Зайдите на сайт huggingface.co и создайте бесплатный аккаунт. Это займёт пару минут.
Найдите готовые приложения: На сайте есть раздел Spaces, где уже есть много приложений с ZeroGPU. Например, вы можете найти программу, которая рисует картинки или отвечает на вопросы. Вот список таких приложений: zero-gpu-explorers.
Попробуйте приложение: Откройте любое приложение, например, для рисования. Введите описание, нажмите кнопку, и через несколько секунд вы увидите результат. Всё бесплатно!
Создайте своё приложение: Если вы знаете основы программирования, вы можете создать своё приложение. Hugging Face даёт инструкции, как это сделать, и ZeroGPU будет автоматически помогать с вычислениями.

Что нужно знать об ограничениях?

ZeroGPU бесплатный, но есть некоторые ограничения:

Лимит времени: Вы не можете использовать ZeroGPU бесконечно. Например, если вы делаете много запросов подряд, система может сказать, что ваш лимит на сегодня закончился, и предложить подождать.
Очереди: Поскольку ZeroGPU бесплатный, иногда приходится ждать, пока процессор освободится. Но если вы купите PRO-подписку (это недорого), ждать придётся меньше, и лимит будет больше.
Не всё работает идеально: Некоторые приложения могут выдавать ошибки, если они не полностью совместимы с ZeroGPU. Но таких случаев становится всё меньше.

Почему это круто?

ZeroGPU открывает мир ИИ для всех. Вам не нужно быть профессиональным программистом или богатой компанией, чтобы создавать крутые вещи. Вы можете экспериментировать, учиться и делиться своими идеями с другими. Это как если бы вам дали доступ к суперкомпьютеру, но без сложностей и затрат.

Что будет дальше?

Hugging Face продолжает развивать ZeroGPU. В будущем они могут добавить ещё больше мощностей, сделать систему быстрее или поддерживать новые виды приложений. Если у вас есть идеи, как улучшить ZeroGPU, вы можете написать свои предложения на форуме Hugging Face.

Заключение

ZeroGPU — это отличный способ попробовать ИИ, даже если у вас нет мощного компьютера. Это проект, который делает технологии доступными для всех, от студентов до энтузиастов. Попробуйте сами — зарегистрируйтесь на Hugging Face, выберите приложение и начните создавать! Это просто, бесплатно и очень увлекательно.

Источник

Новости

Работа с одним коллегой, а не рой ботов

Агенты искусственного интеллекта недостаточно используются, но экспертиза человеческой области все еще необходима

Блок, построенный на основе с открытым исходным кодом

Опыт GSK с мульти агентами в Discovery Discovery

Продолжающееся тестирование критического

Волнение в социальных сетях

Редактирование нативного изображения

Когда ИИ становится слишком дружелюбным: кризис по сикофсинству делят пользователей

Кризис психического здоровья, стоящая за общением с ИИ

Как слепое тестирование раскрывает пользовательскую психологию в предпочтениях ИИ

Корпоративный ответ: ходьба по канату между безопасностью и вовлечением

Почему предпочтения личности ИИ имеют больше, чем когда -либо

Будущее ИИ: персонализация против стандартизации

Что такое Em-Mark для ИИ?

Итак, как вы звучите человеком (но все еще используете ИИ)?

1. Человеческий первый проект, робот второй

2. Разберите EMS (и другой ИИ рассказывает)

3. Добавьте «ты» обратно

Почему вы все равно должны использовать ИИ, даже если ему нравятся больше, чем социально приемлемые

Эволюция режимов взаимодействия с нейросетями

Асинхронный режим: сбалансированный подход

Пакетный режим: максимальная эффективность для массовых задач

Технологии кеширования в работе с нейросетями

Кеширование промтов: не платите дважды за один и тот же контекст

KV-кеширование: оптимизация вычислительных ресурсов

Оптимизация на основе времени доступа

Ночные скидки: использование незагруженной инфраструктуры

Хронологическая оптимизация рабочих процессов

Практические рекомендации по выбору оптимального режима

1. Аудит AI-взаимодействий

2. Матрица принятия решений

3. Комбинированный подход

4. Технологические рекомендации

Тенденции развития рынка и прогнозы

Практические примеры внедрения

Кейс #1: Оптимизация расходов на поддержку клиентов

Кейс #2: Создание масштабируемой системы генерации контента

Заключение

Задача создания компьютерных агентов

Представляем Opencua

Новый рецепт тренировочных агентов

Проведение OpenCua на проверку

Почему вежливость имеет значение?

Научные данные

Практические преимущества

Мнения экспертов

Как вежливость влияет на ИИ?

Механизм работы

Ограничения и риски

Человеческий аспект

Взгляд в будущее: АГИ и за пределами

Практические рекомендации

Заключение

Форматы устаревают — подходы обновляются

Где ИИ уже обучает

Учиться с ИИ хотят сами студенты

ИИ – цифровой наставник и контролер

Иммерсивные технологии и языковые тренажёры

Помощник, а не замена

Вектор — на сотрудничество

Почему Meta хочет сотрудничать с Midjourney

Детали отсутствуют: сколько $$$ получает Midjourney от партнерства?

Массовая встряска AI в Meta

Что такое ZeroGPU и почему это важно?

Для чего нужен ZeroGPU?

Кому это полезно?

Как это работает простыми словами?

Вот как это устроено:

Как начать пользоваться ZeroGPU?

Что нужно знать об ограничениях?

Почему это круто?

Что будет дальше?

Заключение