合成语音处理制造技术

技术编号:35809296 阅读:24 留言:0更新日期:2022-12-03 13:28
一种语音处理系统接收文本数据和与所述文本数据中表示的命令相关的自然理解数据(例如,域、意图和/或实体)两者。所述系统在基于所述自然理解数据确定对应于所述文本数据的频谱图数据时,使用所述自然理解数据来改变声音特性。特性。特性。

【技术实现步骤摘要】
【国外来华专利技术】合成语音处理
[0001]相关申请数据的交叉引用
[0002]本申请要求2020年3月13日以Antonio Bonafonte等人的名义提交的且标题为“合成语音处理(SYNTHETIC SPEECH PROCESSING)”的美国专利申请号16/818,542的优先权。

技术介绍

[0003]语音处理系统可以包括对话管理器,所述对话管理器处理对应于来自用户的命令的输入数据并确定对应于对命令的响应的输出数据。所述命令可以首先由音频数据表示;自动语音识别部件可以处理音频数据以确定对应的文本数据,并且自然语言理解部件可以处理文本数据以确定命令的域、对应于命令的意图和/或对应于命令的实体中的一者或多者。语音处理系统还可以包括文本到语音的部件以用于生成表示对命令的响应的音频。
附图说明
[0004]为了更全面地理解本公开,现在参考下文结合附图进行的描述。
[0005]图1示出了根据本公开的实施方案的语音处理方法。
[0006]图2A示出了根据本公开的实施方案的用于进行语音处理的用户装置的和远程系统的部件。
[0007]图2B示出了根据本公开的实施方案的用于进行语音处理的用户装置的部件。
[0008]图3A和图3B示出了根据本公开的实施方案的用于在给定输入数据的情况下生成输出数据的部件。
[0009]图4示出了根据本公开的实施方案的用于改写输入文本和/或改变输出音频的声音特性的部件。
[0010]图5示出了根据本公开的实施方案的NLU和对话数据的示例。
[0011]图6示出了根据本公开的实施方案的用于改写文本数据的部件。
[0012]图7示出了根据本公开的实施方案的用于改变输出音频数据的声音特性的部件。
[0013]图8示出了根据本公开的实施方案的用于训练TTS系统的部件。
[0014]图9A和图9B示出了根据本公开的实施方案的语言编码器和语音解码器。
[0015]图10示出了根据本公开的实施方案的用于进行语音处理的自然网络。
[0016]图11示出了根据本公开的实施方案的用于进行语音处理的用户装置的部件。
[0017]图12示出了根据本公开的实施方案的用于进行语音处理的远程系统的部件。
[0018]图13示出了根据本公开的实施方案的联网计算环境。
具体实施方式
[0019]语音处理系统可以包括多个部件,其中每个部件可以是经训练的神经网络模型,用于执行与语音处理相关联的各种功能。这些部件可以一起使语音处理系统能够接收、解译和响应来自用户的命令。自动语音识别(ASR)部件(其可以是或包括一个或多个第一次训练后的模型)可以处理对应于命令的音频数据(和/或其他输入数据)并确定对应的输出数
据,所述输出数据可以是文本数据、音频数据和/或视频数据。自然语言理解(NLU)部件(其可以是或包括一个或多个第二次训练后的模型)可以处理输出数据以确定域、意图和/或对应于命令的插槽。对话管理器部件(其可以是或包括一个或多个第三次训练后的模型)可以处理输出数据和/或NLU部件的输出以确定对应于对命令的响应的输出数据。最后,文本转语音(TTS)部件(其可以是或包括一个或多个第四次训练后的模型)可以处理输出数据以确定对应的音频数据。在一些实施方案中,ASR、NLU、对话管理器和/或TTS部件可以组合成单个模型。
[0020]TTS部件可以基于NLU部件和/或对话管理器部件的输出来改变确定的音频数据的各方面。这些改变后的方面可能包括音频数据中表示的词语的措辞变化和/或声音特性的变化,诸如音频数据中表示的词语的语调、语速、强调和/或口音等。这些声音特性也可以称为韵律。词语措辞的变化和/或声音特性的变化可以使用户体验得到改善,因为所述变化可以更接近人类语音。例如,如果一个人不止一次被问到同一个问题,则对问题的响应可能会有所不同。例如,如果问题是“现在几点了”,一个响应可能是“现在是中午12点”,而另一个响应可能是“现在是中午”。人类可能会在不同的语境下类似地改变语音的声音特性或强调特定的词语。例如,在报告天气时响应可能是中性语气,但在报告出乎意料的事件时可能是激动的语调。类似地,响应中的某些词语,诸如著名乐队的名称,可能比其他词语要读得更重,诸如在响应“TOTO在下周演出!”中。
[0021]因此,本公开涉及用于在给定输入文本数据和自然理解(NU)数据的情况下生成合成语音使得合成语音包括至少部分地基于自然理解数据的变化的系统和方法。因此,合成语音中的这些变化可以更接近人类语音自然发生的变化。在各种实施方案中,语言编码器处理输入文本数据以确定表示诸如话语的输入的第一编码数据。可以对第二编码器进行训练以同样处理输入文本数据并确定表示与话语相关的自然理解信息的第二编码数据。这种自然理解信息也可以称为话语的语境。该第二编码数据可以与NLU嵌入数据组合,所述NLU嵌入数据表示由处理输入文本数据的NLU部件确定的编码信息。第二编码数据可以与NLU嵌入数据组合,然后用于调节注意力网络。然后,注意力网络可以将由语言编码器确定的第一编码数据处理为确定的加权编码数据,该加权编码数据继而可以由语音解码器处理以确定音频数据,诸如频谱图数据。例如,如果NLU嵌入数据指示实体在输入文本数据中表示,则注意力网络可以对语言编码器的输出进行加权,使得音频数据包括被强调的实体的表示。
[0022]参考图1,用户10发出由输入音频12表示的语音。用户装置110接收输入音频12并将其(使用例如传声器)转换成对应的音频数据。如下文进一步详细解释的,用户装置110可以执行附加语音处理和/或可以经由网络199将音频数据发送到远程系统120以进行进一步的音频处理。不管音频数据是否由用户装置110和/或远程系统120执行,ASR部件都可以处理音频数据以确定对应的文本数据,并且NLU部件可以处理文本数据以确定NLU数据,诸如域、意图和/或与文本数据相关联的实体。
[0023]用户装置110和/或远程系统120然后可以使用诸如图7所示的语言编码器702的语言编码器来处理(130)诸如输入文本数据的输入数据。如参考附图更详细解释的,语言编码器702可以是一个或多个神经网络,诸如前馈神经网络(FFNN)和/或循环神经网络。语言编码器702因此可以包括连接到一个或多个其他节点的一个或多个节点;节点可以分层布置,使得一层的输出由第二层处理。所述节点可以各自与将输入乘以第一值的权重和/或将输
入加上第二值的偏移相关联。语言编码器702的输出可以是由多个编码值的第一向量组成的第一编码数据;第一向量可以将输入文本数据的词语唯一地标识为单个值集。
[0024]用户装置110和/或远程系统120然后可以使用第二编码器(诸如图7的编码器720)处理(132)输入文本数据。如同语言编码器702,第二编码器720可以确定由值的第二向量组成的第二编码数据。然而,与语言编码器720的输出不同,该第二向量可以定义对应于自然理解数据的合成语音的变化,诸如应该强调哪些词语。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,其包括:接收对应于对命令的响应的第一输入数据;接收包括所述命令的机器表示的第二输入数据;用第一模型处理所述第一输入数据以确定表示所述命令的词语的第一编码数据,所述第一模型包括文本到语音(TTS)部件的语言编码器;用第二模型处理所述第一输入数据以确定对应于所述第二输入数据的第二编码数据,所述第二模型包括所述TTS部件的第二编码器;使用所述第二编码数据和所述第二输入数据与所述TTS部件的注意力网络来处理所述第一编码数据以确定第三编码数据;以及用第三模型处理所述第三编码数据以确定音频数据,所述音频数据对应于与所述第二输入数据相关联的合成语音的变化。2.如权利要求1所述的计算机实施的方法,其还包括:使用声码器处理所述音频数据以确定输出音频数据;以及使得输出所述输出音频数据。3.如权利要求1或2所述的计算机实施的方法,其还包括:接收对应于对第二命令的第二响应的第三输入数据;用第四模型处理所述第三输入数据以确定不同于所述第三输入数据的第四输入数据,所述第四输入数据对应于所述第二输入数据;以及用所述第一模型、所述第二模型和所述第三模型处理所述第四输入数据以确定第二音频数据。4.如权利要求3所述的计算机实施的方法,其还包括:在处理所述第三输入数据之前,确定所述响应对应于所述第二响应并且所述命令对应于所述第二命令。5.如权利要求1、2、3或4所述的计算机实施的方法,其还包括:确定和与所述响应相关联的域相关联的语音风格;其中所述第三编码数据还至少部分地基于所述语音风格。6.如权利要求1、2、3、4或5所述的计算机实施的方法,其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据,所述变化强调所述音频数据中表示的实体的名称。7.如权利要求1、2、3、4、5或6所述的计算机实施的方法,其中用所述第二模型处理所述第一输入数据还包括:用至少一个循环层处理所述第二模型的中间输出。8.如权利要求1、2、3、4、5、6或7所述的计算机实施的方法,其还包括:用所述第三模型处理所述第二输入数据和所述第四编码数据以确定第二音频数据,所述第二音频数据对应于与第四输入数据相关联的所述合成语音的第二变化。9.一种系统,其包括:至少一个处理器;以及至少一个存储器,所述至少一个存储器包括指令,所述指...

【专利技术属性】
技术研发人员:安东尼奥
申请(专利权)人:亚马逊技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1