Microsoft научил нейросеть анимировать лица с помощью записи их речи

1 min


В традиционном формате анимирования статичных изображений используется перенос информации с видеоролика на необходимый кадр. В таком случае для оживления картинки используется видеоряд, при этом часто существует только аудиоряд, который и необходимо использовать.

Созданный Microsoft алгоритм — контекстно-зависимый. Модель выделяет из аудиоролика не только речь человека и ее фонетические особенности, но и эмоциональный ряд и даже сторонний шум. Благодаря этому на видеоряд можно наложить разные аспекты речи: крик, возмущение, разочарование или радость.

Такой подход позволит накладывать на статичную картинку не только прямую и безэмоциональную речь, но и живую. Сейчас алгоритм понимает шесть базовых эмоций, которые он может проанимировать.

Для обучения нейросети авторы использовали тысячи видеозаписей речи 34 человек, сказанной с нейтральным выражением, и 7,4 тыс. — с различным эмоциональным окрасом. Кроме того, для обучения авторы взяли 100 тыс. отрывков видеороликов из TED.

Источник


Понравилось? Поделись с друзьями в соц-сетях!

B-MAG

Редакция Бизнес-журнала b-mag.ru. Мы публикуем материалы о бизнесе и деловой жизни, предпринимательстве и стартапах, инвестициях, бизнес идеях, технологиях и инновациях. Business life today – деловая жизнь сегодня.

Новые комментарии:

Ваш e-mail не будет опубликован. Обязательные поля помечены *

двенадцать + 1 =

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Choose A Format
Story
Formatted Text with Embeds and Visuals