Яндекс начал разработку объединенной модели нейросети для речи и текста
Компания Яндекс приступила к созданию новой модели нейросети, способной воспринимать звук и текст.
Новая мультимодальная модель получит название SpeechGPТ. Работа над её разработкой осуществляется в голосовом помощнике «Алиса» и других сервисах компании.
Информация о разработке новой нейромодели не является секретной, но в компании пока не комментируют детали SpeechGPT. Сведения об этом стали известны из объявления пресс-службы Яндекса о заполнении вакансий в области машинного обучения. Анализируя требования к новым сотрудникам, знающие специалисты вытянули информацию о том, что новая нейросеть будет способна к общению и решению разнообразных задач в текстовом и голосовом формате.
В Яндексе уже работают некоторые сервисы, которые могут общаться с клиентами с помощью текста и голоса. Наиболее характерный пример — это голосовой помощник «Алиса».
Но, в таких сервисах обработка данных проходит в формате последовательной трансформации одного вида в другой. При таком переходе на каждом этапе информация может упрощаться и привести к потере важных деталей. Задача же мульдимодальной сети состоит в одновременном учете всех данных и распознавании различных нюансов, тональностей и эмоций, которые делают общение с нейросетью более насыщенной и достоверной.