用单词重音预测发音的系统和方法技术方案

技术编号:20083940 阅读:25 留言:0更新日期:2019-01-15 03:41
一种用于生成单词的发音的方法、系统和装置,其包括在计算机存储介质上编码的计算机程序。方法之一包括:由一个或多个计算机确定指示单词拼写的拼写数据;将拼写数据作为输入提供给训练的递归神经网络,训练的递归神经网络被训练以至少基于指示单词的拼写的数据指示单词的发音的特征;接收指示由训练的递归神经网络响应于提供拼写数据作为输入而生成的单词的发音的重音模式的输出;使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据;以及由一个或多个计算机将发音数据提供给文本到语音系统或自动语音识别系统。

Systems and Methods of Predicting Pronunciation with Word Stress

A method, system and device for generating the pronunciation of words includes a computer program coded on a computer storage medium. One of the methods includes: determining spelling data of indicating words by one or more computers; providing spelling data as input to a training recurrent neural network, which is trained to indicate pronunciation characteristics of words based at least on spelling data of indicating words; receiving instructions in response to providing spelling data as input by the trained recurrent neural network. The output of the accent mode of the incoming words; the output of the trained recurrent neural network to generate the accent data of the accent mode indicating the pronunciation of the words; and the output of one or more computers to provide the pronunciation data to the speech system or the automatic speech recognition system.

【技术实现步骤摘要】
【国外来华专利技术】用单词重音预测发音的系统和方法
技术介绍
自动语音识别(Automaticspeechrecognition,ASR)系统、文本到语音(text-to-speech,TTS)系统、或两者可以分别使用单词发音数据来确定在音频信号中编码的单词的话语或者生成编码单词的合成话语的音频信号。一些ASR和TTS系统可以使用手动策划的发音字典。字典中的条目可以包括音位(phoneme)序列,例如,“foo”→/fu/(以X-SAMPA(ExtendedSpeechAssessmentMethodsPhoneticAlphabet,拓展音标字母评估法)表示法)。
技术实现思路
发音生成系统可以使用递归神经网络(recurrentneuralnetwork,RNN)模型来预测单词的发音的音节划分和重音模式,并将音节划分和重音模式提供给另一系统,例如,ASR系统、TTS系统、或两者。发音生成系统可以向递归神经网络提供单词拼写、音位序列或两者作为输入。在一些示例中,发音生成系统可以使用长短期记忆(longshort-termmemory,LSTM)递归神经网络模型来预测给定特定单词的发音、拼写、或两者的特定单词的重音模式。发音生成系统可以使用有限状态转换器(finitestatetransducer,FST)技术来约束递归神经网络的输出。例如,发音生成系统可以具有针对特定语言的单词的发音的规则,并且使用有限状态转换器技术将规则应用于从递归神经网络的输出。发音生成系统可以将由递归神经网络生成的输出(例如,指示重音模式和音节划分的输出)提供给TTS系统、ASR系统、或两者。在一些示例中,发音生成系统可以响应于从TTS系统或ASR系统接收的数据动态地生成发音或重音信息。例如,当TTS系统确定在字典中没有可用于特定单词的发音时,TTS系统可以从发音生成系统请求发音数据。作为响应,TTS系统接收特定单词的发音数据,并使用发音数据生成具有特定单词的话语的音频信号。通常,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:由一个或多个计算机确定指示单词的拼写的拼写数据;由一个或多个计算机将拼写数据作为输入提供给训练的递归神经网络,该训练的递归神经网络被训练以至少基于指示单词的拼写的数据指示单词发音的特征;由一个或多个计算机接收指示由训练的递归神经网络响应于提供拼写数据作为输入而生成的单词的发音的重音模式的输出;由一个或多个计算机使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据;以及由一个或多个计算机将发音数据提供给文本到语音系统或者自动语音识别系统。该方面的其他实施例包括记录在一个或多个计算机存储设备上的对应计算机系统、装置和计算机程序,每个计算机系统、装置和计算机程序被配置为执行该方法的动作。一个或多个计算机的系统可以被配置为借助在系统上安装软件、固件、硬件或它们的组合来执行特定操作或动作,该系统在操作中使得系统执行动作。一个或多个计算机程序可以被配置为借助包括指令来执行特定操作或动作,当由数据处理装置执行该指令时,使得装置执行动作。前述和其他实施例可以各自任选地包括单独或以组合形式的一个或多个以下特征。将拼写数据作为输入提供给训练的递归神经网络可以包括将拼写数据作为输入提供给训练的长短期记忆递归神经网络。接收指示由训练的递归神经网络生成的单词的发音的重音模式的输出可以包括接收指示由训练的长短期记忆递归神经网络响应于提供拼写数据作为输入而生成的单词的发音的重音模式的输出。通过一个或多个计算机使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据可以包括使用输出来生成指示至少一个主重音位置的发音。通过一个或多个计算机使用训练的递归神经网络的输出来生成指示单词的发音的重音模式的发音数据可以包括使用输出来生成指示具有重音和音节分割和重音值的单词的音素(phone)的序列的发音。在一些实施方式中,该方法可以包括由一个或多个计算机确定指示单词的至少一个重音位置的发音数据。由一个或多个计算机将拼写数据作为输入提供给训练的递归神经网络可以包括将拼写数据和发音数据作为输入提供给训练的递归神经网络。接收指示由训练的递归神经网络生成的单词的发音的重音模式的输出可以包括接收指示由训练的递归神经网络响应于提供拼写数据和发音数据作为输入而生成的单词的发音的重音模式的输出。由一个或多个计算机将拼写数据作为输入提供给训练的递归神经网络可以包括将对于拼写数据的多个输入矢量作为输入提供给训练的递归神经网络,多个输入矢量中的每一个指示来自拼写数据或填充符(filler)的特定字符。接收指示由训练的递归神经网络生成的单词的发音的重音模式的输出可以包括接收多个输出矢量,每个输出矢量指示在一组符号上的概率分布,多个输出矢量的组合指示由训练的递归神经网络生成的单词的发音的重音模式。提供多个输入矢量可以包括将预定数量的输入矢量作为输入提供给训练的递归神经网络。接收多个输出矢量可以包括从训练的递归神经网络接收预定数量的输出矢量作为输出。在一些实施方式中,由一个或多个计算机使用训练的递归神经网络的输出以生成指示单词的发音的重音模式的发音数据可以包括将一个或多个约束应用于输出以生成指示单词的发音的重音模式的发音数据。将一个或多个约束应用于输出以生成指示单词的发音的重音模式的发音数据可以包括在训练的递归神经网络的输出上使用波束搜索来确定输出中具有满足一个或多个约束的最高可能性的路径,以及使用具有满足一个或多个约束的最高可能性的路径来生成指示单词的发音的重音模式的发音数据。将一个或多个约束应用于输出以生成指示单词的发音的重音模式的发音数据可以包括由有限状态转换器的网络将一个或多个约束应用于输出以生成指示单词的发音的重音模式发音数据。该方法可以包括:从文本到语音系统接收响应于由一个或多个计算机将发音数据提供给文本到语音系统,使用发音数据生成的音频数据。由一个或多个计算机将发音数据提供给文本到语音系统或自动语音识别系统可以包括由一个或多个计算机将发音数据提供给文本到语音系统。本说明书中描述的主题可以在特定实施例中实施,并且可以得到以下优点中的一个或多个。在一些实施方式中,当发音字典不包括特定单词的条目时,下面描述的系统和方法可以生成特定单词的发音。在一些实施方式中,下面描述的系统和方法可以将规则应用于来自神经网络(例如,递归神经网络或长短期记忆递归神经网络)的输出,以确保输出符合神经网络可能没有学习到的发音规则。在一些实施方式中,下面描述的系统和方法可以比不使用神经网络或递归神经网络的基于规则的模型更准确。在一些实施方式中,具有长短期记忆递归神经网络的系统可以在生成输入数据的重音模式(例如,拼写、发音或两者)时从由长短期记忆提供的长上下文行为中受益。在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施方式的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。附图说明图1A-图1B是发音系统生成单词的重音模式的环境的示例。图2A-图2C描绘了生成重音模式的递归神经网络的示例。图3是用于生成指示单词的发音的重音模式的发音数据的过程的流程图。图4是可以结合本文档中描述的计算机实施的方法使用的计算系统的框图。各附图中本文档来自技高网...

【技术保护点】
1.一种由一个或多个计算机执行的方法,该方法包括:由所述一个或多个计算机确定指示单词的拼写的拼写数据;由所述一个或多个计算机将所述拼写数据作为输入提供给训练的递归神经网络,所述训练的递归神经网络被训练以至少基于指示所述单词的拼写的数据来指示单词发音的特征;由所述一个或多个计算机接收指示由所述训练的递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出;由所述一个或多个计算机使用所述训练的递归神经网络的输出来生成指示所述单词的发音的重音模式的发音数据;以及由所述一个或多个计算机将所述发音数据提供给文本到语音系统或自动语音识别系统。

【技术特征摘要】
【国外来华专利技术】2016.06.10 US 15/178,7191.一种由一个或多个计算机执行的方法,该方法包括:由所述一个或多个计算机确定指示单词的拼写的拼写数据;由所述一个或多个计算机将所述拼写数据作为输入提供给训练的递归神经网络,所述训练的递归神经网络被训练以至少基于指示所述单词的拼写的数据来指示单词发音的特征;由所述一个或多个计算机接收指示由所述训练的递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出;由所述一个或多个计算机使用所述训练的递归神经网络的输出来生成指示所述单词的发音的重音模式的发音数据;以及由所述一个或多个计算机将所述发音数据提供给文本到语音系统或自动语音识别系统。2.如权利要求1所述的方法,其中:将所述拼写数据作为输入提供给所述训练的递归神经网络包括将所述拼写数据作为输入提供给训练的长短期记忆递归神经网络;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收指示由所述训练的长短期记忆递归神经网络响应于提供所述拼写数据作为输入而生成的单词的发音的重音模式的输出。3.如权利要求1或2所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括使用所述输出来生成指示至少一个主重音位置的发音。4.如权利要求1或2所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括使用所述输出来生成指示具有重音和音节分割以及重音值的单词的音素的序列的发音。5.如前述权利要求中任一项所述的方法,包括由所述一个或多个计算机确定指示所述单词的至少一个重音位置的发音数据,其中:由所述一个或多个计算机将所述拼写数据作为输入给提供所给所述训练的递归神经网络包括将所述拼写数据和所述发音数据作为输入提供给所述训练的递归神经网络;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收指示由所述训练的递归神经网络响应于提供所述拼写数据和所述发音数据作为输入而生成的单词的发音的重音模式的输出。6.如权利要求1-4中任一项所述的方法,其中:由所述一个或多个计算机将所述拼写数据作为输入提供给所述训练的递归神经网络包括将对于所述拼写数据的多个输入矢量作为输入提供给所述训练的递归神经网络,所述多个输入矢量中的每一个矢量指示来自所述拼写数据或填充符的特定字符;并且接收指示由所述训练的递归神经网络生成的单词的发音的重音模式的输出包括接收每个指示一组符号上的概率分布的多个输出矢量,所述多个输出矢量的组合指示由所述训练的递归神经网络生成的单词的发音的重音模式。7.如权利要求6所述的方法,其中:提供所述多个输入矢量包括将预定数量的输入矢量提供给所述训练的递归神经网络作为输入;并且接收所述多个输出矢量包括从所述训练的递归神经网络接收预定数量的输出矢量作为输出。8.如前述权利要求中任一项所述的方法,其中,由所述一个或多个计算机使用所述训练的递归神经网络的输出以生成指示所述单词的发音的重音模式的发音数据包括将一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据。9.如权利要求8所述的方法,其中,将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据包括:在所述训练的递归神经网络的输出上使用波束搜索来确定所述输出中具有满足所述一个或多个约束的最高可能性的路径;以及使用具有满足所述一个或多个约束的最高可能性的路径来生成指示所述单词的发音的重音模式的发音数据。10.如权利要求8所述的方法,其中,将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据包括由有限状态转换器的网络将所述一个或多个约束应用于所述输出以生成指示所述单词的发音的重音模式的发音数据。11.如前述权利要求中任一项所述的方法,包括:从所述文本到语音系统接收响应于由所述一...

【专利技术属性】
技术研发人员:MV蔡KK拉奥DJJ范埃施
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1