Число моделей искусственного интеллекта для создания видео продолжает расти. На этой неделе была представлена новая модель с открытым исходным кодом Pyramid Flow, которая предлагает высококачественные видеоролики длиной до 10 секунд.
Разработанная совместными усилиями исследователей из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology, модель Pyramid Flow использует новую технику, при которой одна модель ИИ генерирует видео в несколько этапов, большинство из которых имеют низкое разрешение, сохраняя полноразмерную версию только в конце процесса генерации.
Исходный код доступен на Hugging Face и Github. Модель может быть запущена в оболочке (ссылка), но для этого пользователю необходимо загрузить и запустить код модели на своей машине.
Модель может сгенерировать 5-секундное видео с разрешением 384p всего за 56 секунд – наравне или быстрее, чем многие аналоги с полнопоследовательной диффузией, хотя Runway Gen 3-Alpha Turbo по-прежнему занимает первое место по скорости генерации видео.
Pyramid Flow уже сейчас доступна для скачивания и использования – даже в коммерческих целях – и призвана составить прямую конкуренцию платным проприетарным предложениям, таким как Runway’s Gen-3 Alpha, Luma’s Dream Machine, Kling и Haulio, которые могут стоить сотни и даже тысячи долларов в год для пользователей с неограниченной подпиской на генерацию.
Pyramid Flow построен на концепции пирамидального потокового сопоставления данных — методе, который радикально сокращает вычислительные затраты на генерацию видео, сохраняя при этом высокое визуальное качество. Процесс генерации видео завершается серией “пирамидальных” этапов, и только последний этап работает с полным разрешением.
Например, предложенный пирамидальный поток уменьшает количество токенов в четыре раза по сравнению с традиционными диффузионными моделями, что приводит к более эффективному обучению.
Pyramid Flow распространяется под лицензией MIT, допускающей широкий спектр использования, включая коммерческие приложения, модификации и распространение, при условии сохранения уведомления об авторских правах.
Это делает Pyramid Flow привлекательным вариантом для разработчиков и компаний, желающих интегрировать модель в собственные системы.
Несмотря на все свои достоинства, Pyramid Flow всё же имеет некоторые ограничения. На данный момент ей не хватает некоторых возможностей тонкой настройки, которые есть в таких моделях, как Runway Gen-3 Alpha, которая предлагает точный контроль над кинематографическими элементами, такими как углы камеры, ключевые кадры и человеческие жесты.
В ближайшие месяцы разработчики и создатели, вероятно, будут внимательно следить за развитием Pyramid Flow. Благодаря возможности совершенствования и оптимизации, он вполне может стать основным инструментом в арсенале создателей видеоконтента.
Материалы: Venturebeat.com (Carl Franzen)