Интернет-маркетинг

от mregs.ru

Новая ИИ-модель от ByteDance приводит в действие неподвижные изображения с помощью звука

Новая ИИ-модель от ByteDance приводит в действие неподвижные изображения с помощью звука

Китайская технологическая компания ByteDance, известная как разработчик TikTok, создала ИИ-систему с названием INFP (Interactive, Natural, Flash and Person-generic). Искусственный интеллект может при помощи звука вдохнуть жизнь в статичные изображения.

INFP способна отзываться на аудиосигнал и на этой основе оживлять портреты и создавать реалистичные видео диалогов между статичными персонажами. При этом, система может самостоятельно распределять роли оратора и слушателя, а также придавать лицам соответствующие мимические движения.

Технология AI-системы работает в два этапа. На первом этапе искусственный интеллект обучается на деталях общения, движениях головы, мимике лица, жестах. Все эти данные преобразуются в программный код и будут использованы позже. Этап получил название «Имитация движений головы на основе видео».

Второй этап, получивший название «Генерация движений с помощью звука» — это своеобразный «навигатор движений». На этом этапе система исследует звуки со всех сторон разговора и трансформирует их в естественные движения, созвучные с речевым сигналом.

Для обучения INFP команда разработчиков не стала использовать сторонние коллекции разговоров, а создала собственную базу диалогов живого общения, насчитывающую более 200 часов видео из интернета. Для этого были отобраны наиболее эмоциональные диалоги с ярко выраженными чувствами, эмоциями и мимикой.

Сейчас INFP обучена работе только со звуком, но в компании намерены расширить перспективы этого проекта. В дальнейшем могут появиться анимированные изображения не только головы, но и всего тела, а к звуковым командам добавится возможность работать с изображениями и текстом.

На фото: анимированное изображение известного портрета Джоконды, выполненное системой INFP

Добавить комментарий