Google представила ИИ-инструмент, который может оживлять фотографииИсследователи из Google Research разработали новую систему искусственного интеллекта Vlogger, которая может создавать реалистичные видео людей, говорящих, жестикулирующих и двигающихся — только по одной фотографии.Согласно исследовательской работе под названием «Vlogger: мультимодальная диффузия для синтеза воплощенного аватара», для создания видео достаточно только одной фотографии и аудиозаписи, из которых ИИ сделает аватара, который говорит в соответствии с аудио, делает соответствующие выражения лица, движения головой и жесты руками, пишет VentureBeat.
Исследователи использовали диффузионные модели, недавно показавшие превосходную производительность в создании очень реалистичных изображений из текстовых описаний. Расширив их в сферу видео и научившись на огромном новом наборе данных, команда смогла создать систему искусственного интеллекта, которая может оживлять фотографии очень убедительным способом.
Читайте также: Как заработать с помощью искусственного интеллекта
«В отличие от предыдущей работы, наш метод не требует обучения каждого человека, не полагается на распознавание лица и кадрирование, генерирует полное изображение (а не только лицо или губы) и учитывает широкий спектр сценариев (например, видимые торсы или различные субъектные идентичности), которые имеют решающее значение для правильного синтеза общающихся людей», — пишут авторы.Ключевым фактором стала подготовка огромного нового набора данных под названием Mentor, который содержит более 800 000 разнообразных идентификаторов и 2200 часов видео — на порядок больше, чем было доступно ранее. Это позволило Vlogger научиться создавать видео людей разной этнической принадлежности, возраста, одежды, поз и окружения без предвзятости.Технология может автоматически дублировать видео на других языках, просто заменяя аудиодорожку, легко редактировать и заполнять недостающие кадры в видео, а также создавать полноценные видеоролики о человеке с одного кадра.
Однако эта технология также имеет потенциал для злоупотребления, например для создания дипфейков. Поскольку созданные искусственным интеллектом видео становятся более реалистичными и их легко сделать, это может усугубить проблемы, связанные с дезинформацией и цифровыми подделками.Vlogger все же имеет ограничения. Сгенерированные видеоролики относительно короткие и имеют статический фон. Люди не передвигаются в 3D-среде.
Источник: news.finance.ua