合成语音处理制造技术

技术编号：35809296 阅读：24 留言：0更新日期：2022-12-03 13:28

一种语音处理系统接收文本数据和与所述文本数据中表示的命令相关的自然理解数据(例如，域、意图和/或实体)两者。所述系统在基于所述自然理解数据确定对应于所述文本数据的频谱图数据时，使用所述自然理解数据来改变声音特性。特性。特性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】合成语音处理
[0001]相关申请数据的交叉引用
[0002]本申请要求2020年3月13日以Antonio Bonafonte等人的名义提交的且标题为“合成语音处理(SYNTHETIC SPEECH PROCESSING)”的美国专利申请号16/818,542的优先权。

技术介绍

[0003]语音处理系统可以包括对话管理器，所述对话管理器处理对应于来自用户的命令的输入数据并确定对应于对命令的响应的输出数据。所述命令可以首先由音频数据表示；自动语音识别部件可以处理音频数据以确定对应的文本数据，并且自然语言理解部件可以处理文本数据以确定命令的域、对应于命令的意图和/或对应于命令的实体中的一者或多者。语音处理系统还可以包括文本到语音的部件以用于生成表示对命令的响应的音频。
附图说明
[0004]为了更全面地理解本公开，现在参考下文结合附图进行的描述。
[0005]图1示出了根据本公开的实施方案的语音处理方法。
[0006]图2A示出了根据本公开的实施方案的用于进行语音处理的用户装置的和远程系统的部件。
[0007]图2B示出了根据本公开的实施方案的用于进行语音处理的用户装置的部件。
[0008]图3A和图3B示出了根据本公开的实施方案的用于在给定输入数据的情况下生成输出数据的部件。
[0009]图4示出了根据本公开的实施方案的用于改写输入文本和/或改变输出音频的声音特性的部件。
[0010]图5示出了根据本公开的实施方案的NLU和对话数据的示例。
[0011]...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法，其包括：接收对应于对命令的响应的第一输入数据；接收包括所述命令的机器表示的第二输入数据；用第一模型处理所述第一输入数据以确定表示所述命令的词语的第一编码数据，所述第一模型包括文本到语音(TTS)部件的语言编码器；用第二模型处理所述第一输入数据以确定对应于所述第二输入数据的第二编码数据，所述第二模型包括所述TTS部件的第二编码器；使用所述第二编码数据和所述第二输入数据与所述TTS部件的注意力网络来处理所述第一编码数据以确定第三编码数据；以及用第三模型处理所述第三编码数据以确定音频数据，所述音频数据对应于与所述第二输入数据相关联的合成语音的变化。2.如权利要求1所述的计算机实施的方法，其还包括：使用声码器处理所述音频数据以确定输出音频数据；以及使得输出所述输出音频数据。3.如权利要求1或2所述的计算机实施的方法，其还包括：接收对应于对第二命令的第二响应的第三输入数据；用第四模型处理所述第三输入数据以确定不同于所述第三输入数据的第四输入数据，所述第四输入数据对应于所述第二输入数据；以及用所述第一模型、所述第二模型和所述第三模型处理所述第四输入数据以确定第二音频数据。4.如权利要求3所述的计算机实施的方法，其还包括：在处理所述第三输入数据之前，确定所述响应对应于所述第二响应并且所述命令对应于所述第二命令。5.如权利要求1、2、3或4所述的计算机实施的方法，其还包括：确定和与所述响应相关联的域相关联的语音风格；其中所述第三编码数据还至少部分地基于所述语音风格。6.如权利要求1、2、3、4或5所述的计算机实施的方法，其中所述第三编码数据包括对应于合成语音的所述变化的加权编码数据，所述变化强调所述音频数据中表示的实体的名称。7.如权利要求1、2、3、4、5或6所述的计算机实施的方法，其中用所述第二模型处理所述第一输入数据还包括：用至少一个循环层处理所述第二模型的中间输出。8.如权利要求1、2、3、4、5、6或7所述的计算机实施的方法，其还包括：用所述第三模型处理所述第二输入数据和所述第四编码数据以确定第二音频数据，所述第二音频数据对应于与第四输入数据相关联的所述合成语音的第二变化。9.一种系统，其包括：至少一个处理器；以及至少一个存储器，所述至少一个存储器包括指令，所述指...

【专利技术属性】
技术研发人员：安东尼奥，
申请(专利权)人：亚马逊技术公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人