Специалисты Microsoft разработали новый способ создания говорящих лиц на основе аудиосигнала с реалистичной синхронизацией губ, яркой мимикой и естественными движениями головы.
Система, получившая название VASA-1, требует только одну фотографию и аудиофайл в качестве входных данных.
Модель обучается на большом количестве видеоданных. После обучения модель обрабатывает входное изображение и фиксирует различные аспекты, такие как айдентика, трёхмерный вид и динамика лица. Затем диффузионная модель генерирует движения лица и головы. Декодер преобразует эти движения в конечные видеокадры, представляющие говорящее лицо.
В экспериментах с двумя наборами данных VASA-1 значительно превзошла предыдущие методы по аудиосинхронизации движения губ и головы, а также качеству видео. Метод обеспечивает видео 512×512 пикселей со скоростью до 40 кадров в секунду в реальном времени – с задержкой всего 170 мс на графическом процессоре Nvidia RTX 4090.
Посредством управляющих сигналов можно контролировать направление обзора, положение головы и эмоции.
Направление обзора и положение головы
Эмоции и мимика
Потенциальные области применения варьируются от повышения качества цифрового общения до интерактивного ИИ-репетиторства и терапевтической поддержки.
Специалисты Microsoft рассматривают VASA-1 как важный шаг на пути к созданию реалистичных цифровых аватаров ИИ, которые смогут взаимодействовать с людьми так же естественно и интуитивно, как настоящие люди.
Материалы: The-decoder.com (Maximilian Schreiner)