Microsoft презентовала нейросеть для создания реалистичных видео

Компания Microsoft презентовала новую модель ИИ под названием VASA. Эта платформа помогает создавать убедительные виртуальные персонажи с реалистичной мимикой и жестами, основываясь на статическом изображении и звуковой записи.

Microsoft презентовала нейросеть для создания реалистичных видео

«Наша первая модель, именуемая VASA-1, способна генерировать совершенно реалистичные движения губ, которые идеально согласуются с аудиозаписью, и захватывает множество нюансов экспрессии лица и натуральности движений головы, что придаёт сцене аутентичность и живости», — подчеркивается в сообщении от Microsoft.

Новый подход обеспечивает превосходное качество видео. ИИ способен генерировать поток видео 512×512 с частотой 40 кадров в секунду, что делает возможным взаимодействовать в реальном времени с аватарами, имитирующими разговоры человека. Несмотря на небольшую задержку в трансляции, она считается незаметной.

Модель работы VASA-1 основана на анализе фотографий и аудиозаписей для последующего создания реалистичного видео с синтезированным образом и движениями субъекта, отмечают эксперты.

Вместо непосредственной генерации видеокадров, разработчики нейросети воспроизводят полную динамику лица и движения головы в специализированном сокращенном цифровом формате, чтобы затем получить кадры изображения лица из этого сокращенного формата. Далее используется специализированная структура нейронной сети, основанная на диффузном механизме, для составления последовательности видео из отдельных кадров.

Технология Microsoft не является уникальной в этом отношении. Сегодня уже доступен набор алгоритмов, которые могут имитировать человеческое движение, согласно экспертам. Это включает в себя копирование эмоций, жестов, интонаций и речи. Таким образом, нейросети все ближе и ближе к созданию полноценного аналога человека.

  • Другие новости