基于先进的递归神经网络的“字母到声音”制造技术

技术编号:16049121 阅读:38 留言:0更新日期:2017-08-20 08:52
本技术涉及利用递归神经网络(RNN)执行字母到声音的转换。RNN可以实现为用于进行字母到声音的转换的RNN模块。RNN模块接收文本输入,并将文本转换为对应的音素。在确定对应的音素时,RNN模块可以分析文本的字母和在被分析字母周围的字母。RNN模块还可以以相反次序分析文本的字母。RNN模块还可以接收关于输入文本的上下文信息。字母到声音转换于是还可以基于接收到的上下文信息。确定出的音素可以用于根据输入文本生成合成语音。

【技术实现步骤摘要】
【国外来华专利技术】基于先进的递归神经网络的“字母到声音”
技术介绍
“文本到语音”应用被用来朗读书面文本。这种应用可以帮助视力差的人们、处于阅读文本的不良位置的人们(例如在车辆内驾驶)、以及与其不得不阅读文本宁愿倾听朗读的文本的人们。在为用户朗读文本的情况下,用户通常想要听到听起来更自然并准确地阅读文本的语音。文本到语音转换的一个方面是字母到声音(LTS)转换。LTS转换对确定所有单词的发音是有用的,但是其可能对于不在词汇表中的或原本不知道的单词尤其有用。但是,现有技术在LTS转换方面的尝试导致通常难以理解或用户听起来不舒服的口语音频。实施例是针对这些和其它一般考虑而做出的。另外,虽然已经讨论了相对具体的问题,但是应该理解的是,实施例不应该限于解决在背景中指出的具体问题。
技术实现思路
在一个方面,本技术涉及用于将文本转换为语音的方法。所述方法包括接收文本输入,其中所述文本输入是字母形式。所述方法还包括确定来自所述文本输入的音素,其中确定来自所述文本输入的音素使用递归神经网络。所述文本输入被输入到所述递归神经网络的隐藏层和输出层两者。所述方法还包括输出确定出的音素。在一个实施例中,所述方法还包括生成生成序列(g本文档来自技高网...
基于先进的递归神经网络的“字母到声音”

【技术保护点】
一种用于将文本转换为语音的方法,所述方法包括:接收文本输入,其中所述文本输入是字母形式;确定来自所述文本输入的音素,其中确定来自所述文本输入的音素使用递归神经网络,其中所述文本输入被输入到所述递归神经网络的隐藏层和输出层两者;以及输出确定出的音素。

【技术特征摘要】
【国外来华专利技术】2014.06.13 US 14/303,9341.一种用于将文本转换为语音的方法,所述方法包括:接收文本输入,其中所述文本输入是字母形式;确定来自所述文本输入的音素,其中确定来自所述文本输入的音素使用递归神经网络,其中所述文本输入被输入到所述递归神经网络的隐藏层和输出层两者;以及输出确定出的音素。2.根据权利要求1所述的方法,还包括:合成生成序列以创建合成语音。3.根据权利要求1所述的方法,还包括:接收关于输入文本的上下文信息,其中所述上下文信息被接收作为密集辅助输入。4.根据权利要求3所述的方法,其中,所述密集辅助输入被输入到所述递归神经网络的隐藏层和输出层。5.根据权利要求3所述的方法,其中,确定所述音素还基于所述上下文信息。6.根据权利要求1所述的方法,其中,确定所述音素包括以相反次序分析输入文本。7.根据权利要求1所述的方法,其中,确定所述音素包括...

【专利技术属性】
技术研发人员:赵培姚开盛M·梁黄美玉赵晟B·严G·茨威格F·A·阿勒瓦
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1