Услышать любимых героев в оригинале: программа синтеза речи переозвучит фильмы

21 октября 2020 | 14:12
Услышать любимых героев в оригинале - программа синтеза речи переозвучит фильмы - фото 1

Компания Resemble AI, которая занимается разработками в области синтеза речи, представила Localize — программу для локализации речи с сохранением оригинального голоса.

О сервисе сообщает Engadget. 

Пока что в Localize доступны шесть языков: английский, немецкий, французский, испанский, итальянский и голландский, но разработчики обещают расширить их список, в первую очередь добавив корейский, японский и севернокитайский. 

Современные системы синтеза речи работают достаточно качественно: по крайней мере, уже пару лет назад их результаты были неотличимы от человеческой речи — а на производство нужно было не так много данных. Одна из нерешенных пока что проблем — это проблема локализации: готовых решений, которые позволяли бы качественно переводить речь с одного языка на другой с сохранением голоса, очень мало.

К примеру, в прошлом году Google представила свою такую систему на основе нейросетей с долгой краткосрочной памятью — Translatotron: он может качественно локализовать речь без промежуточного шага перевода речи в текст. Проект, однако, пока что остается исключительно исследовательским: компания, судя по всему, не использует его в своих сервисах и не предоставляет другим компаниям.

Resemble AI ушли чуть дальше: их Localize уже доступна для пользователей. Про сам алгоритм в основе программы известно немного, но разработчики решили не обходить шаг синтеза текста в речь, как это сделала Google, поэтому их сервис позволяет не просто переводить речь напрямую с сохранением всех характеристик, но также и синтезировать ее из текста. 

Кроме того, Resemble AI для своих продуктов (помимо Localize это также и стандартные сервисы синтеза речи) использует собственный вокодер на основе генеративно-состязательных нейросетей — HooliGAN, который в том числе позволяет генерировать речь на основе небольшого количества данных. Также компания выложила в свободный доступ API и документацию к нему: судя по ней, сторонние разработчики смогут управлять некоторыми параметрами синтеза локализованной речи (например, менять эмоциональный окрас сказанного).

Что касается сфер использования программы, то Resemble AI в первую очередь нацелена на то, что Localize сможет локализировать фильмы в разных странах с использованием оригинального голоса актера.

Как сообщал Realist, Google Translate улучшил технику перевода благодаря обновлениям, теперь программа использует методику Neural Machine Translation.

Читайте Realist в Google News