Присоединяйтесь к событию, которым доверяют лидеры предприятия в течение почти двух десятилетий. VB Transform объединяет людей, строящих реальную стратегию ИИ предприятия. Узнать больше
Google Deepmind тихо показал значительный прогресс в своих исследованиях искусственного интеллекта (ИИ) во вторник, представляя новую авторегрессивную модель, направленную на улучшение понимания длинных видео входов.
Новая модель под названием «Mirasol3b» демонстрирует революционный подход к мультимодальному обучению, обработке аудио, видео и текстовых данных более интегрированно и эффективно.
По словам Исаака Нобла, инженера-программиста в Google Research и Anelia Angelova, исследователя Google DeepMind, который написал в соавторстве с длинным сообщением в блоге об их исследованиях, задача создания мультимодальных моделей заключается в неоднорозности модальностей.
«Некоторые модальности могут быть хорошо синхронизированы во времени (например, аудио, видео), но не выровнены с текстом», — объясняют они. «Кроме того, большой объем данных в видео и аудиосигналах намного больше, чем в тексте, поэтому при их объединении в мультимодальных моделях видео и аудио часто не могут быть полностью потреблены и должны быть непропорционально сжаты. Эта проблема усугубляется для более длинных видео входов».
Новый подход к мультимодальному обучению
В ответ на эту сложность, модель Google Mirasol3B Декулирует мультимодальное моделирование в отдельных целенаправленных авторегрессивных моделях, обрабатывая входы в соответствии с характеристиками методов.
«Наша модель состоит из авторегрессивного компонента для синхронизированных по времени методов (аудио и видео) и отдельного авторегрессивного компонента для методов, которые не обязательно выравниваются по времени, но все еще являются последовательными, например, текстовые входы, такие как заголовок или описание»,-объясняют NOBLE и Angelova.
Объявление происходит в то время, когда технологическая индустрия стремится использовать силу ИИ для анализа и понимания огромных объемов данных в разных форматах. Google Mirasol3b представляет собой значительный шаг вперед в этом усилия, открывая новые возможности для таких приложений, как ответ на видео -вопросы и обеспечение длительного качества видео.

Потенциальные приложения для YouTube
Одним из возможных приложений модели, которые может изучить Google, является использование ее на YouTube, которая является крупнейшей в мире онлайн -видео платформой и одним из основных источников доходов компании.
Теоретически модель может использоваться для улучшения пользовательского опыта и взаимодействия путем предоставления более мультимодальных функций и функций, таких как генерирование подписей и резюме для видео, ответа на вопросы и предоставление обратной связи, создание персонализированных рекомендаций и рекламных объявлений, а также позволяют пользователям создавать и редактировать свои собственные видео с использованием многомодальных входов и результатов.
Например, модель может генерировать подписи и резюме для видео, основанных как на визуальном, так и аудиоконтенте, и позволить пользователям поиск и фильтровать видео по ключевым словам, темам или чувствам. Это может улучшить доступность и открытие видео и помочь пользователям найти контент, который они ищут легче и быстро.
Модель может также теоретически использоваться для ответа на вопросы и предоставления обратной связи для пользователей на основе видеоконтента, например, объяснение значения термина, предоставление дополнительной информации или ресурсов или предложение связанных видео или списков воспроизведения.
Смешанная реакция сообщества ИИ
Объявление вызвало большой интерес и волнение в сообществе искусственного интеллекта, а также скептицизм и критику. Некоторые эксперты высоко оценили модель за ее универсальность и масштабируемость и выразили свои надежды на его потенциальные приложения в различных областях.
Например, Лео Троншон, инженер -исследователь ML в обнимании лица, твитнул: «Очень интересно видеть, как такие модели, как Mirasol, включают в себя больше модальностей. На открытии еще не так много сильных моделей, использующих как аудио, так и видео. Было бы действительно полезно иметь его (обнимаю лицо)».
Гаутам Шарда, студент компьютерных наук в Университете Айовы, твитнул: «Похоже, нет никакого кода, веса модели, данных обучения или даже API. Почему бы и нет? Я бы хотел, чтобы они фактически выпустили что -то за пределами только исследовательскую статью?».
Значительная веха для будущего ИИ
Объявление знаменует собой значительную веху в области искусственного интеллекта и машинного обучения, а также демонстрирует амбиции и лидерство Google в разработке передовых технологий, которые могут улучшить и преобразовать человеческие жизни.
Тем не менее, это также создает проблему и возможности для исследователей, разработчиков, регуляторов и пользователей ИИ, которые должны обеспечить, чтобы модель и ее приложения были согласованы с этическими, социальными и экологическими ценностями и стандартами общества.
Поскольку мир становится более мультимодальным и взаимосвязанным, важно способствовать культуре сотрудничества, инноваций и ответственности среди заинтересованных сторон и общественности, а также создать более инклюзивную и разнообразную экосистему ИИ, которая может принести пользу всем.
Источник




