Drag Your GAN – совместный проект Института информатики Макса Планка, Саарбрюккенского исследовательского центра визуальных вычислений, взаимодействия и искусственного интеллекта, Массачусетского технологического института, Пенсильванского университета и Google AR/VR.
Аннотация
Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и расположением генерируемых объектов. Существующие подходы обеспечивают управляемость генеративных адверсарных сетей (GAN) с помощью аннотированных вручную обучающих данных или предварительной 3D–модели, которым часто не хватает гибкости, точности и универсальности.
В данной работе мы исследуем мощный, но гораздо менее изученный способ управления GANs, а именно “перетаскивание“ любых точек изображения для точного достижения целевых точек в интерактивной манере.
С помощью DragGAN любой может деформировать изображение, точно контролируя положение пикселей, таким образом манипулируя позой, формой, выражением и расположением различных категорий, таких как животные, автомобили, люди, пейзажи и т.д. Поскольку эти манипуляции выполняются на обученной генеративной матрице изображений GAN, они, как правило, дают реалистичные результаты даже в таких сложных сценариях, как галлюцинация окклюдированного содержимого и деформация форм, которые последовательно следуют за жёсткостью объекта.
Как качественные, так и количественные сравнения демонстрируют преимущество DragGAN над предыдущими подходами в задачах манипулирования изображениями и отслеживания точек. Мы также демонстрируем манипулирование реальными изображениями с помощью инверсии GAN.
Как говорится: “ни (цензура) непонятно, но очень интересно!”