Компания Resemble AI, которая занимается разработками в области синтеза речи, представила Localize — программу для локализации речи с сохранением оригинального голоса.
О сервисе сообщает Engadget.
Пока что в Localize доступны шесть языков: английский, немецкий, французский, испанский, итальянский и голландский, но разработчики обещают расширить их список, в первую очередь добавив корейский, японский и севернокитайский.
Современные системы синтеза речи работают достаточно качественно: по крайней мере, уже пару лет назад их результаты были неотличимы от человеческой речи — а на производство нужно было не так много данных. Одна из нерешенных пока что проблем — это проблема локализации: готовых решений, которые позволяли бы качественно переводить речь с одного языка на другой с сохранением голоса, очень мало.
К примеру, в прошлом году Google представила свою такую систему на основе нейросетей с долгой краткосрочной памятью — Translatotron: он может качественно локализовать речь без промежуточного шага перевода речи в текст. Проект, однако, пока что остается исключительно исследовательским: компания, судя по всему, не использует его в своих сервисах и не предоставляет другим компаниям.
Resemble AI ушли чуть дальше: их Localize уже доступна для пользователей. Про сам алгоритм в основе программы известно немного, но разработчики решили не обходить шаг синтеза текста в речь, как это сделала Google, поэтому их сервис позволяет не просто переводить речь напрямую с сохранением всех характеристик, но также и синтезировать ее из текста.
Кроме того, Resemble AI для своих продуктов (помимо Localize это также и стандартные сервисы синтеза речи) использует собственный вокодер на основе генеративно-состязательных нейросетей — HooliGAN, который в том числе позволяет генерировать речь на основе небольшого количества данных. Также компания выложила в свободный доступ API и документацию к нему: судя по ней, сторонние разработчики смогут управлять некоторыми параметрами синтеза локализованной речи (например, менять эмоциональный окрас сказанного).
Что касается сфер использования программы, то Resemble AI в первую очередь нацелена на то, что Localize сможет локализировать фильмы в разных странах с использованием оригинального голоса актера.
Как сообщал Realist, Google Translate улучшил технику перевода благодаря обновлениям, теперь программа использует методику Neural Machine Translation.