Microsoft открывает компаниям доступ к умному «преобразователю» текста в голос

Microsoft открывает ограниченный доступ к Custom Neural Voice – технологии искусственного интеллекта для преобразования текста в речь. С ее помощью разработчики могут создавать собственные искусственные голоса для цифровых ассистентов, чат-ботов, онлайн-обучения, чтения аудиокниг и текста новостей. 

Custom Neural Voice – это часть платформы Azure AI Speech. 

Для получения доступа к решению Microsoft компаниям необходимо подать заявку на доступ и получить одобрение. В ИТ-компании говорят, что новая технология обеспечивает более естественное звучание голосов, чем аналогичные решения. 

Фото: AT&T / Warner Bros.

Для создания «голосовых шрифтов» используется банк звуков или фонем. Нейронный голос Microsoft использует возможности нескольких нейронных сетей, чтобы точно и реалистично передать просодию (тон и продолжительность каждой фонемы) и произношение.

Технологией Microsoft пользуются AT&T и Warner Bros. В салоне AT&T Experience Store в Далласе (США) посетители могут «поговорить» с кроликом Багзом Банни, персонажем мультфильмов. Актер, озвучивающий Багза Банни, записал более двух тысяч строк и фраз для создания голосового шрифта. 

Custom Neural Voice используется здесь в сочетании с дополненной реальностью и 5G. Кролик поможет найти пользователям салона спрятанную «золотую морковку».