Microsoft научил нейросеть анимировать лица с помощью записи их речи

1 min


В традиционном формате анимирования статичных изображений используется перенос информации с видеоролика на необходимый кадр. В таком случае для оживления картинки используется видеоряд, при этом часто существует только аудиоряд, который и необходимо использовать.

Созданный Microsoft алгоритм — контекстно-зависимый. Модель выделяет из аудиоролика не только речь человека и ее фонетические особенности, но и эмоциональный ряд и даже сторонний шум. Благодаря этому на видеоряд можно наложить разные аспекты речи: крик, возмущение, разочарование или радость.

Такой подход позволит накладывать на статичную картинку не только прямую и безэмоциональную речь, но и живую. Сейчас алгоритм понимает шесть базовых эмоций, которые он может проанимировать.

Для обучения нейросети авторы использовали тысячи видеозаписей речи 34 человек, сказанной с нейтральным выражением, и 7,4 тыс. — с различным эмоциональным окрасом. Кроме того, для обучения авторы взяли 100 тыс. отрывков видеороликов из TED.

Источник


Понравилось? Поделись с друзьями в соц-сетях!

B-MAG

Новые комментарии:

Ваш e-mail не будет опубликован. Обязательные поля помечены *

18 + два =

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.