A method, system and device for generating the pronunciation of words includes a computer program coded on a computer storage medium. One of the methods includes: determining spelling data of indicating words by one or more computers; providing spelling data as input to a training recurrent neural network, which is trained to indicate pronunciation characteristics of words based at least on spelling data of indicating words; receiving instructions in response to providing spelling data as input by the trained recurrent neural network. The output of the accent mode of the incoming words; the output of the trained recurrent neural network to generate the accent data of the accent mode indicating the pronunciation of the words; and the output of one or more computers to provide the pronunciation data to the speech system or the automatic speech recognition system.
【技术实现步骤摘要】
【国外来华专利技术】用单词重音预测发音的系统和方法
技术介绍
自动语音识别(Automaticspeechrecognition,ASR)系统、文本到语音(text-to-speech,TTS)系统、或两者可以分别使用单词发音数据来确定在音频信号中编码的单词的话语或者生成编码单词的合成话语的音频信号。一些ASR和TTS系统可以使用手动策划的发音字典。字典中的条目可以包括音位(phoneme)序列,例如,“foo”→/fu/(以X-SAMPA(ExtendedSpeechAssessmentMethodsPhoneticAlphabet,拓展音标字母评估法)表示法)。
技术实现思路
发音生成系统可以使用递归神经网络(recurrentneuralnetwork,RNN)模型来预测单词的发音的音节划分和重音模式,并将音节划分和重音模式提供给另一系统,例如,ASR系统、TTS系统、或两者。发音生成系统可以向递归神经网络提供单词拼写、音位序列或两者作为输入。在一些示例中,发音生成系统可以使用长短期记忆(longshort-termmemory,LSTM)递归神经网络模型来预测给定特定单词的发音、拼写、或两者的特定单词的重音模式。发音生成系统可以使用有限状态转换器(finitestatetransducer,FST)技术来约束递归神经网络的输出。例如,发音生成系统可以具有针对特定语言的单词的发音的规则,并且使用有限状态转换器技术将规则应用于从递归神经网络的输出。发音生成系统可以将由递归神经网络生成的输出(例如,指示重音模式和音节划分的输出)提供给TTS系统、ASR系统、或两者。在一些示例中,发音 ...
【技术保护点】
1.一种由一个或多个计算机执行的方法,该方法包括:由所述一个或多个计算机确定指示单词的拼写的拼写数据;由所述一个或多个计算机将所述拼写数据作为输入提供给训练的递归神经网络,所述训练的递归神经网络被训练以至少基于指示所述单词的拼写的数据来指示单词发音的特征;由所述一个或多个计算机接收指示由所述训练的递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出;由所述一个或多个计算机使用所述训练的递归神经网络的输出来生成指示所述单词的发音的重音模式的发音数据;以及由所述一个或多个计算机将所述发音数据提供给文本到语音系统或自动语音识别系统。
【技术特征摘要】
【国外来华专利技术】2016.06.10 US 15/178,7191.一种由一个或多个计算机执行的方法,该方法包括:由所述一个或多个计算机确定指示单词的拼写的拼写数据;由所述一个或多个计算机将所述拼写数据作为输入提供给训练的递归神经网络,所述训练的递归神经网络被训练以至少基于指示所述单词的拼写的数据来指示单词发音的特征;由所述一个或多个计算机接收指示由所述训练的递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出;由所述一个或多个计算机使用所述训练的递归神经网络的输出来生成指示所述单词的发音的重音模式的发音数据;以及由所述一个或多个计算机将所述发音数据提供给文本到语音系统或自动语音识别系统。2.如权利要求1所述的方法,其中:将所述拼写数据作为输入提供给所述训练的递归神经网络包括将所述拼写数据作为输入提供给训练的长短期记忆递归神经网络;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收指示由所述训练的长短期记忆递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出。3.如权利要求1或2所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括使用所述输出来生成指示至少一个主重音位置的发音。4.如权利要求1或2所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括使用所述输出来生成指示具有重音和音节分割以及重音值的单词的音素的序列的发音。5.如前述权利要求中任一项所述的方法,包括由所述一个或多个计算机确定指示所述单词的至少一个重音位置的发音数据,其中:由所述一个或多个计算机将所述拼写数据作为输入给提供所给所述训练的递归神经网络包括将所述拼写数据和所述发音数据作为输入提供给所述训练的递归神经网络;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收指示由所述训练的递归神经网络响应于提供所述拼写数据和所述发音数据作为输入而生成的单词的发音的重音模式的输出。6.如权利要求1-4中任一项所述的方法,其中:由所述一个或多个计算机将所述拼写数据作为输入提供给所述训练的递归神经网络包括将对于所述拼写数据的多个输入矢量作为输入提供给所述训练的递归神经网络,所述多个输入矢量中的每一个矢量指示来自所述拼写数据或填充符的特定字符;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收每个指示一组符号上的概率分布的多个输出矢量,所述多个输出矢量的组合指示由所述训练的递归神经网络生成的单词的发音的重音模式。7.如权利要求6所述的方法,其中:提供所述多个输入矢量包括将预定数量的输入矢量提供给所述训练的递归神经网络作为输入;并且接收所述多个输出矢量包括从所述训练的递归神经网络接收预定数量的输出矢量作为输出。8.如前述权利要求中任一项所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括将一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据。9.如权利要求8所述的方法,其中,将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据包括:在所述训练的递归神经网络的输出上使用波束搜索来确定所述输出中具有满足所述一个或多个约束的最高可能性的路径;以及使用具有满足所述一个或多个约束的最高可能性的路径来生成指示所述单词的发音的重音模式的发音数据。10.如权利要求8所述的方法,其中,将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据包括由有限状态转换器的网络将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据。11.如前述权利要求中任一项所述的方法,包括:从所述文本到语音系统接收响应于由所述一...
【专利技术属性】
技术研发人员:MV蔡,KK拉奥,DJJ范埃施,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。