Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас
Предприятия начинают принимать протокол контекста модели (MCP), прежде всего, для облегчения идентификации и руководства использования инструмента агента. Тем не менее, исследователи из Salesforce обнаружили другой способ использования технологии MCP, на этот раз, чтобы помочь в оценке самих агентов ИИ.
Исследователи представили McPeval, новый метод и инструментарий с открытым исходным кодом, основанный на архитектуре системы MCP, которая проверяет производительность агента при использовании инструментов. Они отметили, что текущие методы оценки для агентов ограничены тем, что они «часто полагаются на статические, предварительно определенные задачи, что не смогло захватить интерактивные агентские рабочие процессы в реальном мире».
«McPeval выходит за рамки традиционных показателей успеха/сбоя путем систематического сбора подробных траекторий задач и данных о взаимодействии с протоколом, создавая беспрецедентную видимость в поведение агентов и создавая ценные наборы данных для итерационного улучшения», — сказали в статье. «Кроме того, поскольку как создание, так и проверку задач полностью автоматизированы, результирующие высококачественные траектории могут быть немедленно использованы для быстрого настройки и постоянного улучшения моделей агентов. Комплексные отчеты об оценке, созданные McPeval, также дают действенную информацию о правильной общении с агентом платформы на гранулярном уровне».
McPeval дифференцирует себя, будучи полностью автоматизированным процессом, который, как утверждали исследователи, позволяет быстро оценить новые инструменты и серверы MCP. Он оба собирают информацию о том, как агенты взаимодействуют с инструментами на сервере MCP, генерируют синтетические данные и создают базу данных для контрольных агентов. Пользователи могут выбрать, какие серверы и инструменты MCP на этих серверах для проверки производительности агента.
Шелби Хейнеке, старший менеджер по исследованию искусственного интеллекта в Salesforce и один из авторов статьи, заявила VentureBeat, что трудно получить точные данные о производительности агентов, особенно для агентов в специфических для домена ролях.
«Мы дошли до того, что, если вы посмотрите на технологическую индустрию, многие из нас выяснили, как их развернуть. Теперь нам нужно выяснить, как их правильно оценить», — сказал Хейнеке. «MCP — это очень новая идея, очень новая парадигма. Так что здорово, что агенты будут иметь доступ к инструментам, но нам снова нужно оценить агентов на этих инструментах. Это именно то, что такое McPeval».
Как это работает
Структура McPeval приобретает создание задач, проверку и дизайна оценки моделей. Используя несколько крупных языковых моделей (LLMS), чтобы пользователи могли выбрать работу с моделями, с которыми они более знакомы, агенты могут быть оценены с помощью различных доступных LLM на рынке.
Предприятия могут получить доступ к McPeval через инструментарий с открытым исходным кодом, выпущенный Salesforce. Через панель инструментов пользователи настраивают сервер, выбрав модель, которая затем автоматически генерирует задачи для агента, чтобы следовать на выбранном сервере MCP.
Как только пользователь проверяет задачи, McPeval затем выполняет задачи и определяет звонки инструментов, необходимые как наземная истина. Эти задачи будут использоваться в качестве основы для теста. Пользователи выбирают, какую модель они предпочитают запускать оценку. McPeval может генерировать отчет о том, насколько хорошо агент и тестовая модель функционировали при доступе и использовании этих инструментов.
По словам Хейнеке, МакПеваль не только собирает данные для контрольных агентов, но также может определить пробелы в результате эффективности агента. Информация, полученная путем оценки агентов через McPeval Works не только для проверки производительности, но и для обучения агентов для будущего использования.
«Мы видим, как МакПеваль превращается в универсальный магазин для оценки и исправления ваших агентов»,-сказал Хейнеке.
Она добавила, что то, что выделяет McPeval от других оценщиков агента, так это то, что он приводит тестирование в ту же среду, в которой будет работать агент. Агенты оцениваются о том, насколько хорошо они получают доступ к инструментам на сервере MCP, к которым они, вероятно, будут развернуты.
В статье отмечалось, что в экспериментах модели GPT-4 часто давали наилучшие результаты оценки.
Оценка производительности агента
Потребность в предприятиях начала тестирование и мониторинг производительности агента, привела к всплеске фреймворков и методов. Некоторые платформы предлагают тестирование и еще несколько методов оценки как краткосрочной, так и долгосрочной эффективности агента.
Агенты искусственного интеллекта будут выполнять задачи от имени пользователей, часто без необходимости, чтобы человек мог побудить их. До сих пор агенты оказались полезными, но они могут быть ошеломлены огромным количеством инструментов в их распоряжении.
Galileo, стартап, предлагает структуру, которая позволяет предприятиям оценивать качество выбора инструмента агента и определять ошибки. Salesforce запустила возможности на своей панели панели AgentForce для тестовых агентов. Исследователи из Сингапурского Университета Университета выпустили Agentspec для достижения и мониторинга надежности агента. Также было опубликовано несколько академических исследований по оценке MCP, в том числе MCP-Radar и McPworld.
MCP-Radar, разработанный исследователями из Университета Массачусетса Амхерст и Университета Xi’an Jiaotong, фокусируется на более общих навыках домена, таких как разработка программного обеспечения или математика. Эта структура приоритет эффективности и точности параметров.
С другой стороны, McPworld из постов и телекоммуникаций Пекинского университета привносит анализ графических пользовательских интерфейсов, API и других компьютерных агентов.
Хейнеке сказал, что в конечном итоге, как оцениваются агенты, будет зависеть от компании и варианта использования. Тем не менее, что имеет решающее значение, так это то, что предприятия выбирают наиболее подходящую структуру оценки для их конкретных потребностей. Для предприятий она предложила рассмотреть вопрос о домене, чтобы тщательно проверить, как агенты функционируют в реальных сценариях.
«В каждой из этих структур оценки есть ценность, и это отличные отправные точки, так как они дают некоторый ранний сигнал, насколько силен джентльмен», — сказал Хейнеке. «Но я думаю, что наиболее важной оценкой является ваша оценка, специфичная для домена, и представленные данные оценки, которые отражают среду, в которой будет работать агент».
Источник



