Drag Your GAN: Новый подход в работе с изображением

Drag Your GAN – совместный проект Института информатики Макса Планка, Саарбрюккенского исследовательского центра визуальных вычислений, взаимодействия и искусственного интеллекта, Массачусетского технологического института, Пенсильванского университета и Google AR/VR.

Аннотация

Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и расположением генерируемых объектов. Существующие подходы обеспечивают управляемость генеративных адверсарных сетей (GAN) с помощью аннотированных вручную обучающих данных или предварительной 3D–модели, которым часто не хватает гибкости, точности и универсальности.

В данной работе мы исследуем мощный, но гораздо менее изученный способ управления GANs, а именно “перетаскивание“ любых точек изображения для точного достижения целевых точек в интерактивной манере.

С помощью DragGAN любой может деформировать изображение, точно контролируя положение пикселей, таким образом манипулируя позой, формой, выражением и расположением различных категорий, таких как животные, автомобили, люди, пейзажи и т.д. Поскольку эти манипуляции выполняются на обученной генеративной матрице изображений GAN, они, как правило, дают реалистичные результаты даже в таких сложных сценариях, как галлюцинация окклюдированного содержимого и деформация форм, которые последовательно следуют за жёсткостью объекта.

Как качественные, так и количественные сравнения демонстрируют преимущество DragGAN над предыдущими подходами в задачах манипулирования изображениями и отслеживания точек. Мы также демонстрируем манипулирование реальными изображениями с помощью инверсии GAN.