Модель нового видения от Cohere работает на двух графических процессорах, бьет VLM высшего уровня по визуальным задачам

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас

Рост в глубоких исследованиях и других анализах с искусственным интеллектом вызвал больше моделей и услуг, стремящихся упростить этот процесс и прочитать больше документов, которые фактически используют предприятия.

Canadian Ai Company Cohere занимается банковской деятельностью на своих моделях, в том числе недавно выпущенной визуальной модели, чтобы обосновать, что функции глубоких исследований также должны быть оптимизированы для предприятий.

Компания выпустила Conding Vision, визуальную модель, специально предназначенную для предприятий, созданных на задней части своей команды модели. Модель параметров 112 миллиардов может «разблокировать ценную информацию из визуальных данных и принимать высокие точные, управляемые данными решениями посредством распознавания оптических символов документа (OCR) и анализа изображений»,-говорится в компании.

«Будь то интерпретация руководств по продукту со сложными диаграммами или анализ фотографий сцен реального мира для обнаружения рисков, приказывает видение преуспевает в решении наиболее требовательных проблем с предпринимательством»,-говорится в сообщении в блоге.

Это означает, что команда. Видение может читать и анализировать наиболее распространенные типы изображений, которые необходимы для предприятий: графики, диаграммы, диаграммы, отсканированные документы и PDF.

? @cohere Только что бросил команду видение на @huggingface ?

Разработано для предприятия мультимодальные варианты использования: интерпретация руководств по продукту, анализ фотографий, справление о диаграммах… ❓ ??

112b Площадь на языке зрения с производительностью SOTA-посмотрите на эталонные метрики в… pic.twitter.com/ormfm5f8cf
— Джефф Бодье? (@jeffboudier) 31 июля 2025 года

Поскольку он построен на архитектуре команды A, команда Vision требует два или меньше графических процессоров, как и текстовая модель. Модель видения также сохраняет текстовые возможности команды A для чтения слов на изображениях и понимает как минимум 23 языка. Cohere сказал, что, в отличие от других моделей, Command Vision снижает общую стоимость владения предприятиями и полностью оптимизирован для извлечения вариантов использования для предприятий.

Как совместно архивирует команда

Cohere сказал, что он последовал за архитектурой Llava, чтобы создать свою команду модели, включая визуальную модель. Эта архитектура превращает визуальные особенности в токены мягких зрений, которые можно разделить на разные плитки.

Эти плитки передаются в команду «Текстовую башню», «Продление, 111b параметры текстового LLM», сказала компания. «Таким образом, один изображение потребляет до 3328 токенов».

Cohere сказал, что он обучил визуальную модель на трех этапах: выравнивание языка зрения, контролируемая тонкая настройка (SFT) и обучение подкрепления после тренировки с обратной связью с человеком (RLHF).

«Этот подход позволяет отображать функции Emage Encoder с языковой моделью, встраивающей пространство», — сказали в компании. «Напротив, на стадии SFT мы одновременно обучали энкодера зрения, адаптер зрения и языковую модель на разнообразном наборе мультимодальных задач, посвященных инструкциям».

Визуализация Enterprise AI

Контрольные тесты показали, что видение превосходит другие модели с аналогичными визуальными возможностями.

Команда Cohere Command Видение против GPT Openai 4.1, Meta’s Llama 4 Maverick, Pixtral Fixtral и Mistral Medium 3 в девяти эталонных тестах. Компания не упомянула, проверила ли она модель против API, ориентированного на OCR, Mishstral OCR.

Это позволяет агентам надежно видеть внутри визуальных данных вашей организации, открывая автоматизацию утомительных задач, включающих слайды, диаграммы, PDF -файлы и фотографии. pic.twitter.com/ihznuwekrk
— cohere (@cohere) 31 июля 2025 года

Командование видение обогнало другие модели в тестах, таких как Chartqa, Ocrbench, AI2D и TextVQA. В целом, Command Vision имела средний балл 83,1% по сравнению с 78,6% GPT, 78,6%, 80,5% Llama 4 и 78,3% от Mistral Medium 3.

В наши дни большинство крупных языковых моделей (LLMS) являются мультимодальными, что означает, что они могут генерировать или понимать визуальные носители, такие как фотографии или видео. Тем не менее, предприятия обычно используют больше графических документов, таких как диаграммы и PDF, поэтому извлечение информации из этих неструктурированных источников данных часто оказывается трудным.

Благодаря глубокому исследованию роста, важность внедрения моделей, способных читать, анализировать и даже загружать неструктурированные данные.

Cohere также заявила, что предлагает команду видение в системе открытых весов, в надежде, что предприятия, стремящиеся отойти от закрытых или проприетарных моделей, начнут использовать свои продукты. До сих пор есть некоторый интерес со стороны разработчиков.

Очень впечатлен его точностью, извлекая ручные рукописные ноты с изображения!
— Адам Сардо (@sardo_adam) 31 июля 2025 года

Наконец, ИИ, который не будет судить о моих ужасных рисунках.
— Марта Мудрец? (@martwisener) 1 августа 2025 года

Источник

Как совместно архивирует команда

Визуализация Enterprise AI

Почему ИИ с открытым исходным кодом стал американским национальным приоритетом

Почему эпоха ИИ заставляет редизайн всей вычислительной основы

Рекомендуем

Оставить комментарий Отменить ответ