QWEN-Image-это мощный генератор изображений с открытым исходным кодом с поддержкой встроенного текста на английском и китайском языке

admin

Хотите более разумное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


После того, как он воспользовался летом с блицем мощного, свободно доступного нового языка с открытым исходным кодом и моделей искусственного искусственного искусства, которые совпадали или в некоторых случаях превзошли соперники с закрытым исходным кодом/проприетарными соперниками США, Крэка Alibaba «Команда QWEN» исследователей ИИ снова вернулась сегодня с выпуском новой модели генератора изображений искусственного интеллекта. — также открытый исходный код.

Qwen-Image выделяется в многолюдном поле генеративных моделей изображений из -за его Акцент на точное отображение текста в визуальных эффектах — область, где многие соперники до сих пор борются.

Поддерживая как алфавитные, так и логографические сценарии, модель особенно искусна в управлении сложной типографикой, многострочными макетами, семантикой уровня параграфа и Двуязычное содержание (например, английский китайский).

На практике это позволяет пользователям Создание контента, такого как плакаты из фильмов, слайды презентаций, сцены витрины, рукописную поэзию и стилизованную инфографику — С четким текстом, который соответствует их подсказкам.

Выходные примеры QWEN-Image включают в себя широкий спектр реальных вариантов использования:

  • Маркетинг и брендинг: Двуязычные плакаты с логотипами бренда, стилистической каллиграфией и последовательными мотивами дизайна
  • Проект презентации: Слайд-палубы с макетом с иерархиями заголовка и визуальными визуализациями, соответствующие теме
  • Образование: Поколение материалов в классе с диаграммами и точно отображаемым учебным текстом
  • Розничная торговля и электронная коммерция: Сцены магазина, где эти метки, вывески и экологический контекст должны быть читаемыми
  • Творческий контент: Рукописная поэзия, повествования сцены, иллюстрация в стиле аниме со встроенным текстом истории

Пользователи могут взаимодействовать с моделью на веб -сайте QWEN Chat, выбирая режим «генерация изображений» из кнопок под полем ввода приглашения.

Тем не менее, мои краткие первоначальные тесты показали, что текст и быстрое соблюдение были заметно лучше, чем Мидюрни, популярный проприетарный генератор изображений ИИ от одноименной компании США. Мой сеанс через Qwen Chat создал несколько ошибок в быстрого понимания и верности текста, к моему разочарованию, даже после повторяющихся попыток и быстрого переподключения:

Тем не менее, Midjourney предлагает только ограниченное количество свободных поколений и требует подписки на какие-либо больше, по сравнению с QWEN Image, которое, благодаря своему лицензированию с открытым исходным кодом и весом, размещенными на обнимании лица, могут быть приняты любым предприятием или сторонним поставщиком.

Лицензирование и доступность

QWEN-Image распределяется под Apache 2.0 лицензияразрешая коммерческое и некоммерческое использование, перераспределение и модификацию-хотя для производственных работ требуется атрибуция и включение текста лицензии.

Это может сделать его привлекательным для предприятий, ищущих инструмент генерации изображений с открытым исходным кодом для использования для создания внутреннего или внешнего обеспечения, таких как листовки, рекламы, уведомления, информационные бюллетени и другие цифровые коммуникации.

Но тот факт, что данные обучения модели остаются надежным секретом — Как и в большинстве других ведущих генераторов изображений ИИ — Может искусить некоторые предприятия в идее использования егоПолем

QWEN, в отличие от Adobe Firefly или Openai’s GPT-4O Generation, например, не предлагает компенсацию за коммерческое использование своего продукта (т. Е. Если пользователь будет предъявлен иск за нарушение авторских прав, Adobe и Openai помогут поддержать их в суде).

Модель и связанные с ними активы, включая демонстрационные записные книжки, инструменты оценки и сценарии с тонкой настройкой, доступны через несколько репозитории:

  • Qwen.ai
  • Обнимающееся лицо
  • Моделикоп
  • GitHub

Кроме того, живая оценка портала под названием AI Arena позволяет пользователям сравнивать поколения изображений в парных раундах, способствуя публичному таблицу лидеров в стиле ELO.

Обучение и развитие

За выступлением Qwen-Image находится Обширный процесс обучения, основанный на прогрессивном обучении, многомодальном выравнивании задач и агрессивном курировании данныхсогласно техническому документу, исследовательская группа, опубликованная сегодня.

Тренировочный корпус включает в себя миллиарды пар, полученных из четырех доменов: природные образы, человеческие портреты, художественное и контент-контент (такие как плакаты и макеты пользовательского интерфейса), а также синтетические текстовые данные. Команда QWEN не указала размер учебного корпусапомимо «миллиардов пар изображений текста». Они действительно обеспечили разбивку грубого процента каждой категории контента, который он включал:

  • Природа: ~ 55%
  • Дизайн (пользовательский интерфейс, плакаты, искусство): ~ 27%
  • Люди (портреты, человеческая деятельность): ~ 13%
  • Синтетическое текстовое рендеринг данных: ~ 5%

Примечательно, что QWEN подчеркивает, что все синтетические данные были сгенерированы внутри дома, и не использовалось изображения, создаваемые другими моделями ИИ. Несмотря на подробные описанные этапы курирования и фильтрации, Документация не уточняет, был ли какой -либо из данных лицензированными или взятыми из общедоступных или собственных наборов данных.

В отличие от многих генеративных моделей, которые исключают синтетический текст из-за риска шума, QWEN-Image использует строго контролируемые трубопроводы синтетического рендеринга для улучшения охвата символов, особенно для низкочастотных символов на китайском языке.

Используется стратегия в стиле учебного плана: модель начинается с простых подписных изображений и не текстового контентазатем достигает чувствительных к макеру сценариям текста, рендеринга смешанного языка и плотных абзацев. Этот Показано, что постепенное воздействие помогает модели обобщать сценарии и типы форматирования.

QWEN-Image интегрирует три ключевых модуля:

  • QWEN2.5-VLмодель мультимодального языка, извлекает контекстуальное значение и генерирует генерацию с помощью системных подсказок.
  • Vae Encoder/Декодеробученные документам с высоким разрешением и реальными макетами, обрабатывает подробные визуальные представления, особенно небольшой или плотный текст.
  • Mmditосновная цепочка диффузионной модели, координирует совместное обучение через модальности изображения и текста. Новая система MSROPE (мультимодальная масштабируемая вращающаяся позиционная кодировка) улучшает пространственное выравнивание между токенами.

Вместе эти компоненты позволяют QWEN-Image эффективно работать в задачах, которые включают понимание изображения, генерацию и точное редактирование.

Производительность

QWEN-Image был оценен по нескольким общественным критериям:

  • Женевальный и DPG Для быстрого следования и последовательности атрибута объекта
  • Oneig-Bench и Tiif для композиционных рассуждений и верности макета
  • CVTG-2KВ Китайское словои Longtext-Bench для рендеринга текста, особенно в многоязычных контекстах

Почти в каждом случае QWEN-Image либо совпадает, либо превосходит существующие модели с закрытым исходным кодом, такие как GPT Image 1 (High), SeedReam 3.0 и Flux.1 Kontext (Pro). Примечательно, что его эффективность на китайском текстовом рендеринге была значительно лучше, чем все по сравнению с системами.

На публичной таблице лидеров AI ARE ARENA-на основе 10 000+ парных сравнений человека-QWEN-Image занимает третье место в общем зачете и является главной моделью с открытым исходным кодом.

Последствия для лиц, принимающих предприятия, принимают технические решения

Для команд AI Enterprise, управляющих сложными мультимодальными рабочими процессами, QWEN-Image представляет несколько функциональных преимуществ, которые соответствуют оперативным потребностям различных ролей.

Те, кто управляет жизненным циклом моделей на языке зрения-от обучения до развертывания-Уилl Найти ценность в постоянном качество вывода QWEN-Image и его готовых к интеграции компонентам. Природа с открытым исходным кодом снижает затраты на лицензирование, в то время как модульная архитектура (QWEN2,5-VL + VAE + MMDIT) облегчает адаптацию к пользовательским наборам данных или тонкую настройку для специфических для домена выходов.

А Данные обучения в стиле учебного плана и результаты четких эталон помогают командам оценить физическую форму для цели. Развертывание маркетинговых визуальных эффектов, визуализации документов или графики продукта электронной коммерции, QWEN-Image обеспечивает быстрые эксперименты без проприетарных ограничений.

Инженеры Порученная построением трубопроводов ИИ или развертывания моделей в разных распределенных системах, оценит подробную документацию по инфраструктуре. Модель была обучена с использованием архитектуры производителя-потребителя, поддерживает масштабируемую обработку с несколькими разрешениями (256p до 1328p) и создана для работы с параллелизмом Megatron-LM и тензора. Этот делает QWEN-Image кандидатом на развертывание в гибридных облачных средах, где надежность и пропускная способность.

Кроме того, поддержка рабочих процессов редактирования изображений на изображение (TI2I) и подсказки для конкретной задачи позволяет использовать его в реальном времени или интерактивных приложениях.

Профессионалы сосредоточены на приеме данных, валидации и преобразовании может использовать QWEN-Image в качестве инструмента для создания синтетических наборов данных для обучения или расширения моделей компьютерного зрения. Его способность генерировать изображения с высоким разрешением со встроенными, многоязычными аннотациями может повысить производительность в задачах с OCR, обнаружением объектов или расположением макетов.

Так как Qwen-Image был также обучен избегать артефактов, таких как QR -кодыискаженный текст и водяные знаки, он предлагает более качественный синтетический вклад, чем многие общедоступные модели-помогая предпринимаемым командам сохранять целостность набора обучения.

Ищу отзывы и возможности для сотрудничества

Команда QWEN подчеркивает открытость и сотрудничество сообщества в выпуске модели.

Разработчикам рекомендуется тестировать и настраивать QWEN-Image, предлагать запросы на привлечение и участвовать в таблице лидеров оценки. Обратная связь по рендеринге текста, редактированию верности и многоязычных вариантов использования будет формировать будущие итерации.

С заявленной целью «снизить технические барьеры для создания визуального контента», команда надеется, что QWEN-Image будет служить не только как модель, но и в качестве основы для дальнейших исследований и практического развертывания в разных отраслях.



Источник

Рекомендуем

Оставить комментарий