Редактирование QWEN-Image дает Photoshop за бег за свои деньги с помощью редакторов текста до искусственного интеллекта, которые работают в секундах

admin

Хотите более умное понимание в вашем почтовом ящике? Подпишитесь на наши еженедельные информационные бюллетени, чтобы получить только то, что имеет значение для искусственного интеллекта предприятия, данных и лидеров безопасности. Подписаться сейчас


Adobe Photoshop является одним из самых узнаваемых фрагментов программного обеспечения, когда -либо создаваемых, используемыми более чем 90% творческих профессионалов мира, согласно Photutorial.

Так что факт, что Новая модель ИИ с открытым исходным кодом -Qwen-Image Edit, выпущенная вчера китайским гигантом электронной коммерции Alibaba QWEN Team of AI-исследователей- Теперь в состоянии выполнить огромное количество работ с редактированием, похожими на Photoshop.это заметное достижение.

Построенная на модели фонда QWEN-Image на 20 миллиардов параметра, выпущенной ранее в этом месяце, QWEN-Image-Edit расширяет уникальные силы системы в текстовом рендеринге, чтобы охватить широкий спектр задач редактирования, от тонких изменений внешнего вида до более широких семантических преобразований.

Просто загрузите начальное изображение-я попробовал один из себя с последней ежегодной конференции Venturebeat в Сан-Франциско, а затем введите инструкции о том, что вы хотите изменить, и Qwen-Image-Edit вернет новое изображение с этими изменениями.

Пример входного изображения:

Фото предоставлено: Майкл О’Доннелл Фотография

Пример вывода изображения с помощью подсказки: «Сделайте мужчину в смокинге».

Модель доступна сейчас на нескольких платформах, включая Qwen ChatВ Обнимающееся лицоВ МоделикопВ GitHubи через Интерфейс программирования приложений Alibaba Cloud (API)последний, который позволяет любому стороннему разработчику или предприятию интегрировать эту новую модель в свои собственные приложения и рабочие процессы.

Я создал свои примеры выше на Qwen Chat, сопернике команды QWEN в CHATGPT OpenAI, однако для любого начинающих пользователей следует отметить, что поколения ограничены примерно 8 бесплатными заданиями (входные/выходы) в течение 12 часов до его сброса. Оплата пользователей может иметь доступ к большему количеству заданий.

При поддержке как английского, так и китайского входов, а также двойного внимания как к семантическому значению, так и на визуальной верности, QWEN-Image-Edit стремится снизить барьеры для создания визуального содержания профессионального класса.

И учитывая, что модель доступна в качестве открытого кода по лицензии Apache 2.0, для предприятий безопасно принимать, загружать и настраивать бесплатно на собственном оборудовании или виртуальных облаках/машинах, что может привести к огромной экономии затрат от проприетарного программного обеспечения, такого как Photoshop.

Как Junyang Lin, исследователь команды QWEN, написал на X: «Это может удалить прядь волос, очень тонкую модификацию изображения».

Объявление команды перекликается с этим настроением, представляя QWEN-Image-Edicit не как совершенно новую систему, а как естественное расширение QWEN-Image, которое применяет свой уникальный текст и двойной подход непосредственно к редактированию задач.

Двойные кодировки позволяют сохранению стиля и содержания оригинального изображения

Qwen-image-edit основан на фундаменте, созданном Qwen-imageкоторый был представлен ранее в этом году как крупномасштабная модель, специализирующаяся на генерации изображений, так и на текстовом рендеринге.

Технический отчет QWEN-Image подчеркнул его способность выполнять сложные задачи, такие как текстовый текст уровня параграфа, китайские и английские персонажи, а также с несколькими линиями с точностью.

В отчете также подчеркнулся механизм двойного кодированияпитание изображений одновременно в QWEN2.5-VL для семантического контроля и вариационного автоэкодер (VAE) для реконструктивных деталей. Этот подход позволяет правок, которые остаются верными как для намерения подсказки, так и внешнего вида исходного изображения.

Те же самые архитектурные варианты лежат в основе qwen-image-edit. Используя двойные кодировки, модель может приспосабливаться к двум уровням: Семантические изменения это изменяет значение или структуру сцены, и внешний вид прав которые вводят или удаляют элементы, сохраняя остальные нетронутыми.

Семантическое редактирование Включает в себя создание новой интеллектуальной собственности, вращающиеся объекты 90 или 180 градусов, чтобы раскрыть различные представления или превратить вклад в другой стиль, такой как Studio, вдохновленное искусством. Эти редакторы обычно модифицируют многие пиксели, но сохраняют основную идентичность объектов.

Вот пример семантического редактирования от Shridhar Athinarayanan, инженера Replicate Platform Applications, который использовал реализацию или «вывод» QWEN, чтобы повторно сфотографировать Манхэттен, чтобы выглядеть как набор игрушек LEGO.

Редактирование внешнего вида Сосредоточится на точных местных изменениях. В этих случаях большая часть изображения остается неизменной, в то время как конкретные объекты изменяются. Демонстрации включают в себя добавление вывески, которая генерирует отражение в воде, удаление бездомных покрытий волос с портрета и изменение цвета одной буквы в текстовом изображении.

Один хороший пример редактирования внешнего вида с помощью QWEN-Image Edit приходит от соучредителя и генерального директора Respondai Томаса Хилла, который разместил на x бок о бок о своей жене в ее свадебном платье под аркой, а другая с той же аркой, покрытой граффити: граффити: граффити:

В сочетании с устоявшейся силой QWEN в виде китайского и английского текста, система редактирования, ориентированная на редактирование, позиционируется как гибкий инструмент для создателей, которым нужно больше, чем простые генеративные образы.

Двойной контроль над семантическим объемом и точностью внешнего вида означает, что один и тот же инструмент может служить очень разным потребностям, от творческого развития IP до ретуширования фотографий на уровне производства.

Добавление или удаление текста на изображения

Еще одна выдающаяся способность — это Двуязычное редактирование текстаПолем QWEN-IMAGE-EDIT позволяет пользователям добавлять, удалять или изменять текст как на китайском, так и на английском языке при сохранении шрифта, размера и стиля.

Это расширяет репутацию Qwen-Image для сильного текста, особенно в сложных сценариях, таких как сложные китайские иероглифы.

На практике это позволяет точно редактировать плакаты, знаки, футболки или произведения искусства каллиграфии, где имеют значение небольшие текстовые данные, как видно из другого примера из репликации ниже.

Одна демонстрация включала исправление ошибок в кусочке сгенерированной китайской каллиграфии посредством пошагового процесса редактирования цепочек.

Пользователи могут выделять неправильные регионы, указать систему исправить их, а затем еще больше уточнить детали, пока не будут отображаться правильные символы. Этот итеративный подход показывает, как модель может быть применена к задачам редактирования с высокими ставками, где необходима точность.

Приложения и варианты использования

Команда QWEN выделила ряд потенциальных приложений:

  • Творческий дизайн и расширение IPнапример, генерирование пакетов смайликов на основе талисмана.
  • Реклама и создание контентагде могут быть настроены логотипы, вывески и текстовые визуальные эффекты.
  • Виртуальные аватары и искусствосо стилем переноса, поддерживающей уникальные представления персонажей.
  • Фотография и личное использованиев том числе настройки фона, изменения одежды и удаление объекта.
  • Культурное сохранениепродемонстрировано путем исправления классической каллиграфии.

Соединяя мелкозернистое редактирование с более широкими творческими преобразованиями, Qwen-Image-Edit обслуживает профессионалов, которые нуждаются в контроле, оставаясь доступным для случайных экспериментов.

Бесборивание и производительность

По данным команды QWEN, оценки в общедоступных критериях показывают, что Qwen-Image-Edit обеспечивает Современная производительность в редактировании изображения.

Это следует из более широких технических оценок QWEN-Image, где базовая модель достигла ведущих результатов как в общих задачах генерации изображений, так и в задачах рендеринга текста.

В то время как конкретные эталонные показатели редактирования не были подробно описаны в выпуске, сам QWEN-Image высоко оценивал независимые оценки, такие как AI Arena, где оценщики человека сравнивали результаты по моделям разных поставщиков.

Цены и доступность API

Через Alibaba Cloud Model Studioразработчики могут получить доступ к Qwen-Image-Edit в качестве API. Цены установлены на $ 0,045 за изображениес бесплатной квотой 100 изображений действительны в течение 180 дней После активации.

Сервис изначально доступен в Сингапурский регионс ограничением скорости пять запросов в секунду и до две одновременные задачи на счетПолем

Чтобы использовать API, разработчики должны получить ключ Model Studio API и могут вызвать модель через HTTP или через DashScope SDK в Python или Java.

Изображения могут быть представлены в виде URL -адресов или в формате Base64, с поддерживаемыми разрешениями в диапазоне от 512 до 4096 пикселей и размерами файлов до 10 МБ. Выходные изображения размещаются в хранилище облачных объектов Alibaba со ссылками, действительными в течение 24 часов, требуя, чтобы пользователи быстро загружали и сохраняли результаты.

Что дальше для Qwen?

QWEN позиционирует изображение-редакцию как шагD Снижение барьеров для создания визуального контента. Сделав точное, подсудимое стиль, редактирование более доступным, модель может поддерживать приложения от Design Studios до случайных пользователей, усовершенствовавших личные проекты.

Система также сигнализирует о более широкой тенденции в разработке искусственного интеллекта: выходя за рамки одноцелевого поколения в сторону инструментов, которые интегрируют редактирование, коррекцию и уточнение.

Как семантическая гибкость, так и точность на уровне внешнего вида, QWEN-Image-Edit отражает этот сдвиг, смешивая генеративные силы крупных моделей с надежностью, необходимой для профессионального редактирования.



Источник

Рекомендуем

Оставить комментарий