Компания Google разработала алгоритм, способный напрямую переводить речь на другой язык, не используя текстовое представление сказанных слов, который может сохранять характеристики голоса человека на переведенной записи.
Описание разработки опубликовано в блоге Google AI.
Разработчики из Google под руководством Юнхуэя У создали алгоритм, переводящий речь с одного языка на другой без использования промежуточного перевода речи в текстовое представление.
Созданный разработчиками алгоритм представляет собой набор из нескольких отдельных алгоритмов, часть из которых использует архитектуру нейросети с долгой краткосрочной памятью (LSTM).
В целом алгоритм можно представить в виде трех модулей, центральный из которых принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму для записи речи на другом языке.
После получения новой спектрограммы она отдается алгоритму для синтеза аудиофайлов. Третий модуль представляет собой кодировщик, данные с которого используются, если необходимо сохранить голос с оригинальной речи:
Для обучения исследователи использовали два больших датасета, содержащих записи разговоров на английском и испанском, а также их текстовое представление.
Во время обучения алгоритм выполнял еще одну задачу, которую разработчики называют критически важной для того, чтобы научить его переводить не только отдельные простые слова, но и целые предложения.
Алгоритм предсказывал текстовые последовательности фонем на обоих языках. Во время работы эта часть алгоритма не используется и лишь помогает обучить нейросеть корректному созданию спектрограмм.
Разработчики проверили качество работы алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком.
Оказалось, что классический подход с промежуточным преобразованием речи в текст дает лучший результат. Вместе с этим они отмечают, что это первый пример алгоритма для прямого перевода устной речи, обученного на полноценном корпусе языка.
Читайте также: Искусственный интеллект изобрел новый вид спорта.