Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше
Проекты компьютерного зрения редко идут точно так же, как и планировалось, и это не было исключением. Идея была проста: построить модель, которая могла бы посмотреть на фотографию ноутбука и определить любые физические повреждения — такие вещи, как треснутые экраны, отсутствующие ключи или разбитые петли. Это казалось простой вариантом использования моделей изображений и больших языковых моделей (LLMS), но он быстро превратился во что -то более сложное.
По пути мы столкнулись с проблемами с галлюцинациями, ненадежными результатами и изображениями, которые даже не были ноутбуками. Чтобы решить их, мы в итоге применяли агентскую структуру нетипичным образом — не для автоматизации задач, а для повышения производительности модели.
В этом посте мы будем проходить через то, что мы пробовали, что не сработало, и как сочетание подходов в конечном итоге помогло нам создать что -то надежное.
Где мы начали: монолитное подсказка
Наш первоначальный подход был довольно стандартным для мультимодальной модели. Мы использовали одну большую подсказку для передачи изображения в LLM, способный к изображению, и попросили его определить видимый урон. Эта стратегия монолитного подсказка проста в реализации и прилично работает для чистых, четко определенных задач. Но реальные данные редко играют.
Мы столкнулись с тремя основными проблемами на раннем этапе:
- Галлюцинации: Модель иногда изобретает ущерб, который не существовал, или не погрузилась в то, что она видела.
- Обнаружение изображения мусораУ него не было надежного способа помечения изображений, которые даже не были ноутбуками, как изображения столов, стен или людей, иногда проскользнули и получали бессмысленные отчеты о повреждении.
- Непоследовательная точность: Комбинация этих проблем сделала модель слишком ненадежной для оперативного использования.
Это был тот момент, когда стало ясно, что нам нужно будет итерация.
Первое исправление: смешивание разрешений изображения
Мы заметили, что качество изображения повлияло на выход модели. Пользователи загрузили все виды изображений, начиная от резкого и высокого разрешения до размытия. Это привело нас к рассмотрению исследования, подчеркивающих, как разрешение изображения влияет на модели глубокого обучения.
Мы обучали и протестировали модель, используя смесь изображений с высоким и низким разрешением. Идея заключалась в том, чтобы сделать модель более устойчивой к широкому спектру качеств изображений, с которой он столкнулся на практике. Это помогло улучшить последовательность, но основные проблемы галлюцинации и обработки нежелательных изображений сохранялись.
Мультимодальный обход: только текстовый LLM Goes MultiModal
Поощряются недавними экспериментами в сочетании подписания изображений с помощью текстовых LLMS-например, методика, охваченная в ПартияГде подписи генерируются из изображений, а затем интерпретируются языковой моделью, мы решили попробовать.
Вот как это работает:
- LLM начинается с создания нескольких возможных подписей для изображения.
- Другая модель, называемая мультимодальной моделью встраивания, проверяет, насколько хорошо каждая подпись подходит для изображения. В этом случае мы использовали Siglip, чтобы оценить сходство между изображением и текстом.
- Система сохраняет несколько лучших подписей на основе этих баллов.
- LLM использует эти лучшие подписи, чтобы написать новые, пытаясь приблизиться к тому, что на самом деле показывает изображение.
- Он повторяет этот процесс, пока подписи не перестанут улучшаться, или не достигнет установленного предела.
Несмотря на то, что в теории умный, этот подход представил новые проблемы для нашего случая использования:
- Постоянные галлюцинации: Сами подписи иногда включали воображаемый ущерб, о котором тогда с уверенностью сообщили LLM.
- Неполное покрытие: Даже с несколькими подписями некоторые проблемы были упущены полностью.
- Повышенная сложность, небольшая выгода: Добавленные шаги усложнили систему без надежного превосходства предыдущей настройки.
Это был интересный эксперимент, но в конечном итоге не решение.
Творческое использование агентских рамок
Это был поворотный момент. В то время как агентские рамки обычно используются для оркестровных потоков задач (например, агенты, координирующие приглашение на календарь или действия обслуживания клиентов), мы задавались вопросом, может ли разбить задачу интерпретации изображения на более мелкие специализированные агенты.
Мы создали агентскую структуру, структурированную так:
- Агент оркестратора: Он проверил изображение и определил, какие компоненты ноутбука были видны (экран, клавиатура, шасси, порты).
- Компонентные агенты: Выделенные агенты осматривали каждый компонент на наличие конкретных типов повреждений; Например, один для треснутых экранов, другой для пропущенных ключей.
- Агент обнаружения мусора: Отдельный агент отметил, был ли изображение даже ноутбуком в первую очередь.
Этот модульный, управляемый задачами подход дал гораздо более точные и объяснимые результаты. Галлюцинации резко упали, нежелательные изображения были надежно отмечены, и задача каждого агента была простой и достаточно сфокусированной для управления качеством.
Слепые пятна: компромиссы агентского подхода
Как бы это ни было эффективно, это не было идеальным. Появилось два основных ограничения:
- Повышенная задержка: Запуск нескольких последовательных агентов, добавленных в общее время вывода.
- Пробелы в покрытии: Агенты могли только обнаружить проблемы, которые они были явно запрограммированы на поиск. Если изображение показало что -то неожиданное, что ни одному агенту не было поручено идентифицировать, оно осталось бы незамеченным.
Нам нужен был способ сбалансировать точность с покрытием.
Гибридный раствор: объединение агентских и монолитных подходов
Чтобы преодолеть пробелы, мы создали гибридную систему:
- А агентская структура Сначала бежала, обрабатывая точное обнаружение известных типов повреждений и нежелательных изображений. Мы ограничили количество агентов самыми важными для улучшения задержки.
- Тогда, а Монолитное изображение LLM Сканировал изображение для всего, что агенты могли пропустить.
- Наконец мы тонко настроил модель Использование кураторского набора изображений для приоритетных вариантов использования, таких как сценарии повреждений, для дальнейшего повышения точности и надежности.
Эта комбинация дала нам точность и объясняемость агентской настройки, широкое охват монолитного подсказки и повышение доверия целевой точной настройки.
Что мы узнали
К тому времени, когда мы завершили этот проект, стали ясны:
- Агентские рамки более универсальны, чем они получают кредит: Хотя они обычно связаны с управлением рабочим процессом, мы обнаружили, что они могут значительно повысить производительность модели при применении структурированным, модульным способом.
- Смешивание разных подходов, которые полагаются только на один: Комбинация точного, агентского обнаружения наряду с широким охватом LLMS, а также немного тонкой настройки, где оно важнее всего, дало нам гораздо более надежные результаты, чем любой отдельный метод сам по себе.
- Визуальные модели склонны к галлюцинациям: Даже более продвинутые настройки могут приступить к выводам или увидеть вещи, которых нет. Требуется вдумчивый дизайн системы, чтобы контролировать эти ошибки.
- Разнообразие качества изображения имеет значение: Обучение и тестирование как с четкими изображениями высокого разрешения, так и с повседневными, более низкими качественными помогали модели оставаться устойчивой, когда столкнулись с непредсказуемыми, реальными фотографиями.
- Вам нужен способ поймать мусорные изображения: Выделенный чек на мусор или не связанные с картинками была одним из самых простых изменений, которые мы внесли, и это оказало огромное влияние на общую надежность системы.
Последние мысли
Что началось как простая идея, используя подсказку LLM для обнаружения физического повреждения на изображениях ноутбуков, быстро превратилось в гораздо более глубокий эксперимент в сочетании различных методов ИИ для решения непредсказуемых, реальных проблем. Попутно мы поняли, что некоторые из наиболее полезных инструментов были изначально разработаны для этого типа работы.
Агентные рамки, часто рассматриваемые как утилиты рабочих процессов, оказались удивительно эффективными при перепрофилировании для таких задач, как обнаружение структурированных повреждений и фильтрация изображений. С небольшим творчеством они помогли нам создать систему, которая была не просто более точной, но и легкой для понимания и управления на практике.
Шрути Тивари является менеджером по продукту искусственного интеллекта в Dell Technologies.
Вадирадж Кулкарни — ученый для данных Dell Technologies.
Источник