Google научила искусственный интеллект переводить устную речь

Компания Google разработала алгоритм, способный напрямую переводить речь на другой язык, не используя текстовое представление сказанных слов, который может сохранять характеристики голоса человека на переведенной записи.

Описание разработки опубликовано в блоге Google AI.

Разработчики из Google под руководством Юнхуэя У создали алгоритм, переводящий речь с одного языка на другой без использования промежуточного перевода речи в текстовое представление.

Созданный разработчиками алгоритм представляет собой набор из нескольких отдельных алгоритмов, часть из которых использует архитектуру нейросети с долгой краткосрочной памятью (LSTM).

В целом алгоритм можно представить в виде трех модулей, центральный из которых принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму для записи речи на другом языке.

После получения новой спектрограммы она отдается алгоритму для синтеза аудиофайлов. Третий модуль представляет собой кодировщик, данные с которого используются, если необходимо сохранить голос с оригинальной речи:

Для обучения исследователи использовали два больших датасета, содержащих записи разговоров на английском и испанском, а также их текстовое представление.

Во время обучения алгоритм выполнял еще одну задачу, которую разработчики называют критически важной для того, чтобы научить его переводить не только отдельные простые слова, но и целые предложения.

Алгоритм предсказывал текстовые последовательности фонем на обоих языках. Во время работы эта часть алгоритма не используется и лишь помогает обучить нейросеть корректному созданию спектрограмм.

Разработчики проверили качество работы алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком.

Оказалось, что классический подход с промежуточным преобразованием речи в текст дает лучший результат. Вместе с этим они отмечают, что это первый пример алгоритма для прямого перевода устной речи, обученного на полноценном корпусе языка.

Читайте также: Искусственный интеллект изобрел новый вид спорта.

Читать все новости