Microsoft VASA-1 генерирует реалистичные аватары в режиме реального времени

Специалисты Microsoft разработали новый способ создания говорящих лиц на основе аудиосигнала с реалистичной синхронизацией губ, яркой мимикой и естественными движениями головы.

Система, получившая название VASA-1, требует только одну фотографию и аудиофайл в качестве входных данных.

Модель обучается на большом количестве видеоданных. После обучения модель обрабатывает входное изображение и фиксирует различные аспекты, такие как айдентика, трёхмерный вид и динамика лица. Затем диффузионная модель генерирует движения лица и головы. Декодер преобразует эти движения в конечные видеокадры, представляющие говорящее лицо.

В экспериментах с двумя наборами данных VASA-1 значительно превзошла предыдущие методы по аудиосинхронизации движения губ и головы, а также качеству видео. Метод обеспечивает видео 512×512 пикселей со скоростью до 40 кадров в секунду в реальном времени – с задержкой всего 170 мс на графическом процессоре Nvidia RTX 4090.

Посредством управляющих сигналов можно контролировать направление обзора, положение головы и эмоции.

Направление обзора и положение головы

Эмоции и мимика

Потенциальные области применения варьируются от повышения качества цифрового общения до интерактивного ИИ-репетиторства и терапевтической поддержки.

Специалисты Microsoft рассматривают VASA-1 как важный шаг на пути к созданию реалистичных цифровых аватаров ИИ, которые смогут взаимодействовать с людьми так же естественно и интуитивно, как настоящие люди.

Материалы: The-decoder.com (Maximilian Schreiner)