语音合成方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:24043977 阅读:72 留言:0更新日期:2020-05-07 04:21
本发明专利技术实施例公开了一种语音合成方法、装置、计算机设备及计算机可读存储介质。本发明专利技术中语音合成方法,包括:根据获取待合成频谱和预置频谱得到叠加频谱;对叠加频谱进行情感语义特征提取;对预置频谱进行基频提取,得到预置频谱对应的基频特征;根据叠加频谱对应的情感语义特征和预置频谱对应的基频特征得到待合成频谱对应的情感韵律频谱。根据情感韵律频谱生成的语音,与待合成频谱具有相同的语义,并且与预置频谱的情感特征和韵律特征一致。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。

Speech synthesis method, device, computer equipment and computer readable storage medium

【技术实现步骤摘要】
【国外来华专利技术】语音合成方法、装置、计算机设备及计算机可读存储介质
本专利技术涉及语言合成
,尤其涉及一种语音合成方法、装置、计算机设备及计算机可读存储介质。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术,具体是指将计算机自己产生的、或外部输入计算机的文字信息转变为可以听得懂的、流利的语音输出的技术。现有技术中,从参考的语音中提取情感特征,然后通过无监督的方式利用提取的情感特征来控制语音的风格,但是,语音中不止情感,还包括有重音等,需要对重音等韵律因素进行精细控制,从而使得合成的语音更加真实。
技术实现思路
基于此,有必要针对上述问题,提出了一种能够同时对情感和韵律进行控制的语音合成、装置、计算机设备及存储介质。本专利技术实施例提供了一种语音合成方法,所述方法包括:获取待合成频谱和预置频谱;根据所述待合成频谱和所述预置频谱得到叠加频谱;对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。一种语音合成装置,所述装置包括:频谱获取模块,用于获取待合成频谱和预置频谱;叠加频谱模块,用于根据所述待合成频谱和所述预置频谱得到叠加频谱;情感语义模块,用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;基频提取模块,用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;情感韵律模块,用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待合成频谱和预置频谱;根据所述待合成频谱和所述预置频谱得到叠加频谱;对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取待合成频谱和预置频谱;根据所述待合成频谱和所述预置频谱得到叠加频谱;对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。采用本专利技术实施例,具有如下有益效果:上述语音合成方法、装置、计算机设备及计算机可读存储介质,首先获取待合成频谱和预置频谱;然后根据所述待合成频谱和所述预置频谱得到叠加频谱;同时对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;并且对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;最后根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。上述语音合成方法,首先提取到了情感语义特征,赋予了语音情感,然后提取到了预置频谱的基频,而基频能够体现韵律,由此实现了对语音的重音等韵律进行控制,最终使得合成的语音更加真实。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中语音合成方法的应用环境图;图2为一个实施例中语音合成方法的流程图;图3为一个实施例中根据所述待合成频谱和所述预置频谱得到叠加频谱的流程图;图4为一个实施例中根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱的流程图;图5为一个实施例中语音合成装置的结构框图;图6为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为一个实施例中语音合成方法的应用环境图。参照图1,该语音合成方法应用于语音合成系统,该语音合成系统可设置于终端中,也可以设置于服务器中,其中,终端具体可以是台式终端或移动终端,移动终端具体可以是手机、机器人、平板电脑、笔记本电脑等中的至少一种,台式终端可以是台式电脑、车载电脑;服务器包括高性能计算机和高性能计算机集群。该语音合成系统包括用于获取待合成频谱和预置频谱的频谱获取模块;用于根据所述待合成频谱和所述预置频谱得到叠加频谱的叠加频谱模块;用于对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征的情感语义模块;用于对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征的基频提取模块;用于根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音的情感韵律模块。如图2所示,在一个实施例中,提供了一种语音合成方法。该方法既可以应用于终端,也可以应用于服务器,还可以应用于其他语音合成装置中。该语音合成方法具体包括如下步骤:步骤202:获取待合成频谱和预置频谱。其中,待合成频谱是指不具有情感、韵律的待合成文本对应的频谱。示例性的,待合成频谱可以是待合成文本对应的梅尔频谱,还可以是待合成文本对应的梅尔倒谱。其中,预置频谱,是指预先设置的具有一定的情感和韵律的目标语音对应的频谱,将预置频谱中的情感和韵律提取出来,并叠加到不具有情感、韵律的待合成频谱上,得到具有该一定的情感和韵律的情感韵律频谱,从而根据该情感韵律频谱生成具有该一定的情感和韵律的语音。示例性的,获取具有一定的情感和韵律的目标语音;根据所述目标语音得到所述目标语音对应的预置频谱。预置频谱可以预先设置于执行本专利技术实施例所述的语音合成方法的设备中,也可以在有语音合成需求的时候,从其他设备中获取到该预置频谱。步骤204:根据所述待合成频谱和所述预置频谱得到叠加频谱。其中,叠加频谱,同时包含有待合成频谱的特征和预置频谱的特征,具体的,叠加频谱可本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取待合成频谱和预置频谱;/n根据所述待合成频谱和所述预置频谱得到叠加频谱;/n对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;/n对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;/n根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。/n

【技术特征摘要】
【国外来华专利技术】1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成频谱和预置频谱;
根据所述待合成频谱和所述预置频谱得到叠加频谱;
对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征;
对所述预置频谱进行基频提取,得到所述预置频谱对应的基频特征;
根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,以根据所述情感韵律频谱生成语音。


2.根据权利要求1所述的方法,其特征在于,所述根据所述待合成频谱和所述预置频谱得到叠加频谱,包括:
将所述预置频谱作为情感编码器的输入,得到所述预置频谱对应的情感特征;
根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱。


3.根据权利要求2所述的方法,其特征在于,所述根据所述预置频谱对应的情感特征和所述待合成频谱得到所述叠加频谱,包括:
获取所述待合成频谱对应的待合成维度;
将所述预置频谱对应的情感特征转换成维度和所述待合成维度一致的情感转换特征;
根据所述待合成频谱和所述情感转换特征得到所述叠加频谱。


4.根据权利要求1所述的方法,其特征在于,所述对所述叠加频谱进行情感语义特征提取得到所述叠加频谱对应的情感语义特征,包括:
将所述叠加频谱作为情感语义编码器的输入,得到所述情感语义编码器输出的所述叠加频谱对应的情感语义特征。


5.根据权利要求4所述的方法,其特征在于,所述根据所述叠加频谱对应的情感语义特征和所述预置频谱对应的基频特征得到所述待合成频谱对应的情感韵律频谱,包括:
将所述叠加频谱对应的情感语义特征和所...

【专利技术属性】
技术研发人员:黄东延盛乐园熊友军
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1