Google научила искусственный интеллект переводить устную речь

16 мая 2019 | 10:04

Компания Google разработала алгоритм, способный напрямую переводить речь на другой язык, не используя текстовое представление сказанных слов, который может сохранять характеристики голоса человека на переведенной записи.

Описание разработки опубликовано в блоге Google AI.

Разработчики из Google под руководством Юнхуэя У создали алгоритм, переводящий речь с одного языка на другой без использования промежуточного перевода речи в текстовое представление.

Созданный разработчиками алгоритм представляет собой набор из нескольких отдельных алгоритмов, часть из которых использует архитектуру нейросети с долгой краткосрочной памятью (LSTM).

В целом алгоритм можно представить в виде трех модулей, центральный из которых принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму для записи речи на другом языке.

После получения новой спектрограммы она отдается алгоритму для синтеза аудиофайлов. Третий модуль представляет собой кодировщик, данные с которого используются, если необходимо сохранить голос с оригинальной речи:

Для обучения исследователи использовали два больших датасета, содержащих записи разговоров на английском и испанском, а также их текстовое представление.

Во время обучения алгоритм выполнял еще одну задачу, которую разработчики называют критически важной для того, чтобы научить его переводить не только отдельные простые слова, но и целые предложения.

Алгоритм предсказывал текстовые последовательности фонем на обоих языках. Во время работы эта часть алгоритма не используется и лишь помогает обучить нейросеть корректному созданию спектрограмм.

Разработчики проверили качество работы алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком.

Оказалось, что классический подход с промежуточным преобразованием речи в текст дает лучший результат. Вместе с этим они отмечают, что это первый пример алгоритма для прямого перевода устной речи, обученного на полноценном корпусе языка.

Читайте также: Искусственный интеллект изобрел новый вид спорта.