Интернет-гигант Google представил вид искусственного интеллекта, названный Tacotron 2 и умеющий преобразовывать текст в речь. Генерируемый им голос неотличим от человеческого даже для обладателя музыкального слуха, и в этом заслуга сразу двух нейронных систем, входящих в состав ИИ.
Первая нейронная сеть изучает текст и преобразует его в специальную спектрограмму, а вторая сеть, известная как WaveNet, интерпретирует полученный файл и на его основе создает голос, который и читает введенный текст. По словам разработчиков, им удалось превзойти все существующие аналогичные технологии в плане точности воспроизведения человеческого голоса.
В свободном доступе есть схема принципа работы Tacotron 2, и Google активно трудится над усовершенствованием своего нового творения. Пока что искусственный интеллект далек от совершенства, поскольку он только начал изучать английский язык, плюс ему под силу воспроизведение только женского голоса и нескольких его интонаций. Тем не менее, ИИ уже отличает строчные буквы от заглавных, и в случае, если то или иное слово в тексте выделено большими буквами, при прочтении он сделает на нем дополнительный акцент. Ссылка на сайт с семплами.
На сайте Google выложены примеры работы Tacotron 2, и голос искусственного интеллекта действительно звучит, как настоящий – нет ни акцента, ни «машинности», и даже все ударения в словах система расставляет верно, умея также отличать вопросительные предложения от повествовательных.