System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 声学特征确定方法、装置、电子设备及语音合成系统制造方法及图纸_技高网

声学特征确定方法、装置、电子设备及语音合成系统制造方法及图纸

技术编号:41009159 阅读:6 留言:0更新日期:2024-04-18 21:44
本申请提出一种声学特征确定方法、装置、电子设备及语音合成系统,该方法包括:获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征;对短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征;基于第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测第一短句对应的声学特征,声学特征用于合成与第一短句对应的语音。本方案对待转换语句切分成的每个短句的声学特征进行依次预测,相比于对待转换语句的声学特征进行整句预测,能够实现声学特征的流式预测,减少确定声学特征的响应时长,进而提高语音合成的响应速度。

【技术实现步骤摘要】

本申请涉及语音合成,尤其涉及一种声学特征确定方法、装置、电子设备及语音合成系统


技术介绍

1、语音合成系统通常由前端、声学模型和声码器三部分组成。前端主要实现文本处理、文本转音素、韵律停顿预测等功能;声学模型主要实现音素转成与语音直接相关的声学特征;声码器则实现声学特征转换成语音。

2、现有的声学模型通常采用非流式结构,以整个语句为基本处理单元,基于整个语句的音素韵律特征,将整个语句的声学特征均预测得到后,再将声学特征输出并转换成语音。但是,将整个语句的声学特征均预测得到后,再将声学特征输出并转换成语音,会使得确定声学特征的响应时间较长,进而影响语音合成的响应速度。


技术实现思路

1、基于上述需求,本申请提出一种声学特征确定方法、装置、电子设备及语音合成系统,能够减少确定声学特征的响应时长,从而提高语音合成的响应速度。

2、为实现上述目的,本申请提出如下技术方案:

3、根据本申请实施例的第一方面,提供了一种声学特征确定方法,包括:

4、获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征;其中,所述短句集合中包括对所述待转换语句进行语句切分后得到的至少两个短句;

5、对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征;其中,所述第一短句为所述短句集合中的任意一个短句;

6、基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测所述第一短句对应的声学特征;所述声学特征用于合成与所述第一短句对应的语音。

7、可选的,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,包括:

8、对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,得到所述短句集合对应的上下文音素韵律特征;

9、基于所述上下文音素韵律特征中历史短句对应的特征,确定所述第一短句对应的历史音素韵律特征;所述历史短句为所述短句集合中第一短句之前的短句;

10、基于所述上下文音素韵律特征中未来语句对应的特征,确定所述第一短句对应的未来音素韵律特征;所述未来短句为所述短句集合中第一短句之后的短句。

11、可选的,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测所述第一短句对应的声学特征,包括:

12、将所述短句集合中的各个短句对应的音素韵律特征和所述第一短句对应的音素韵律特征均输入到预先训练的第一声学模型中,得到所述第一短句对应的声学特征;

13、其中,所述第一声学模型对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测所述第一短句对应的声学特征。

14、可选的,所述第一声学模型的训练过程,包括:

15、预先采集样本转换语句对应的样本短句集合,并确定所述样本短句集合中各个样本短句对应的音素韵律特征;所述样本短句集合中包括对所述样本转换语句进行语句切分后得到的至少两个样本短句;

16、将所述样本短句集合中的各个样本短句对应的音素韵律特征和第一样本短句对应的音素韵律特征输入到所述第一声学模型中,得到所述第一样本短句对应的第一样本预测信息,以及,将所述样本短句集合中的各个样本短句对应的音素韵律特征输入到预先训练的第二声学模型中,得到所述样本短句集合对应的第二样本预测信息;所述第一样本短句为所述样本短句集合中的任意一个样本短句;

17、基于所述第一样本预测信息和所述第二样本预测信息,对所述第一声学模型进行模型参数调整。

18、可选的,所述第一样本预测信息包括:所述第一样本短句对应的第一音素韵律编码特征和第一样本声学特征;所述第二样本预测信息包括:所述样本短句集合对应的第二音素韵律编码特征和第二样本声学特征;

19、其中,所述第一音素韵律编码特征是所述第一声学模型中的编码器基于所述第一样本短句对应的音素韵律特征、样本历史音素韵律特征和样本未来音素韵律特征进行编码得到的;所述第一样本声学特征是所述第一声学模型中的解码器对所述第一音素韵律编码特征进行解码得到的;所述第二音素韵律编码特征是所述第二声学模型中的编码器基于所述样本短句集合中的各个样本短句对应的音素韵律特征进行编码得到的;所述第二样本声学特征是所述第二声学模型中的解码器对所述第二音素韵律编码特征进行解码得到的。

20、可选的,基于所述第一样本预测信息和所述第二样本预测信息,对所述第一声学模型进行模型参数调整,包括:

21、基于所述第一音素韵律编码特征与所述第二音素韵律编码特征之间的损失函数,以及,所述第一样本声学特征和所述第二样本声学特征之间的损失函数,对所述第一声学模型进行模型参数调整。

22、可选的,所述第二声学模型的训练过程,包括:

23、获取至少两个发音人的第一样本录音数据,所述第一样本录音数据包括:第一样本录音文本和第一样本音频;

24、将所述第一样本录音文本对应的音素韵律特征输入到所述第二声学模型中,得到所述第一样本录音文本对应的第一预测声学特征;

25、基于所述第一预测声学特征和所述第一样本音频对应的真实声学特征之间的损失函数,对所述第二声学模型进行模型参数调整。

26、可选的,所述第二声学模型的训练过程,还包括:

27、获取目标发音人的第二样本录音数据,所述第二样本录音数据包括:第二样本录音文本和第二样本音频;

28、将所述第二样本录音文本对应的音素韵律特征输入到所述第二声学模型中,得到所述第二样本录音文本对应的第二预测声学特征;

29、基于所述第二预测声学特征和所述第二样本音频对应的真实声学特征之间的损失函数,对所述第二声学模型进行模型参数微调。

30、根据本申请实施例的第二方面,提供了一种声学特征确定装置,包括:

31、特征获取模块,用于获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征;其中,所述短句集合中包括对所述待转换语句进行语句切分后得到的至少两个短句;

32、上下文特征提取模块,用于对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征;其中,所述第一短句为所述短句集合中的任意一个短句;

33、声学特征预测模块,用于基于所述第一短句对应的音素韵律特征、历史音素韵本文档来自技高网...

【技术保护点】

1.一种声学特征确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,包括:

3.根据权利要求1所述的方法,其特征在于,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测所述第一短句对应的声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一声学模型的训练过程,包括:

5.根据权利要求4所述的方法,其特征在于,所述第一样本预测信息包括:所述第一样本短句对应的第一音素韵律编码特征和第一样本声学特征;所述第二样本预测信息包括:所述样本短句集合对应的第二音素韵律编码特征和第二样本声学特征;

6.根据权利要求5所述的方法,其特征在于,基于所述第一样本预测信息和所述第二样本预测信息,对所述第一声学模型进行模型参数调整,包括:

7.根据权利要求4所述的方法,其特征在于,所述第二声学模型的训练过程,包括:

8.根据权利要求7所述的方法,其特征在于,所述第二声学模型的训练过程,还包括:

9.一种声学特征确定装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括:存储器和处理器;

11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任意一项所述的声学特征确定方法。

12.一种语音合成系统,其特征在于,包括:前端设备、声学特征确定设备和声码器;

...

【技术特征摘要】

1.一种声学特征确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,包括:

3.根据权利要求1所述的方法,其特征在于,对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理,并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征,基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征,预测所述第一短句对应的声学特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一声学模型的训练过程,包括:

5.根据权利要求4所述的方法,其特征在于,所述第一样本预测信息包括:所述第一样本短句对应的第一音素韵律编码特征和第一样本声学特征;所述第...

【专利技术属性】
技术研发人员:钟良胡亚军方昕潘嘉高建清
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1