Новая ИИ-модель от ByteDance приводит в действие неподвижные изображения с помощью звука
Китайская технологическая компания ByteDance, известная как разработчик TikTok, создала ИИ-систему с названием INFP (Interactive, Natural, Flash and Person-generic). Искусственный интеллект может при помощи звука вдохнуть жизнь в статичные изображения.
INFP способна отзываться на аудиосигнал и на этой основе оживлять портреты и создавать реалистичные видео диалогов между статичными персонажами. При этом, система может самостоятельно распределять роли оратора и слушателя, а также придавать лицам соответствующие мимические движения.
Технология AI-системы работает в два этапа. На первом этапе искусственный интеллект обучается на деталях общения, движениях головы, мимике лица, жестах. Все эти данные преобразуются в программный код и будут использованы позже. Этап получил название «Имитация движений головы на основе видео».
Второй этап, получивший название «Генерация движений с помощью звука» — это своеобразный «навигатор движений». На этом этапе система исследует звуки со всех сторон разговора и трансформирует их в естественные движения, созвучные с речевым сигналом.
Для обучения INFP команда разработчиков не стала использовать сторонние коллекции разговоров, а создала собственную базу диалогов живого общения, насчитывающую более 200 часов видео из интернета. Для этого были отобраны наиболее эмоциональные диалоги с ярко выраженными чувствами, эмоциями и мимикой.
Сейчас INFP обучена работе только со звуком, но в компании намерены расширить перспективы этого проекта. В дальнейшем могут появиться анимированные изображения не только головы, но и всего тела, а к звуковым командам добавится возможность работать с изображениями и текстом.
На фото: анимированное изображение известного портрета Джоконды, выполненное системой INFP