声学特征的确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23894730 阅读:26 留言:0更新日期:2020-04-22 07:58
本申请公开了一种声学特征的确定方法、装置、计算机设备及存储介质,属于音色转换技术领域。该方法包括:提取第一语音数据的音素信息和基频信息,获取第一语音数据的第一基频分布信息,基于基频信息、第一基频分布信息及第二语音数据的第二基频分布信息,将基频信息映射至第二基频分布信息所在域,得到目标基频分布信息,将音素信息与目标基频分布信息输入目标声学模型,输出第二音色的声学特征。本申请将第一音色的基频信息映射到第二音色的基频分布所在域后,输入目标声学模型,使目标声学模型的输入更符合第二音色的分布,减小了第一音色的基频分布与第二音色的基频分布之间的差异,降低了合成异常的可能性,提高了声学特征的质量和稳定性。

Determination method, device, computer equipment and storage medium of acoustic characteristics

【技术实现步骤摘要】
声学特征的确定方法、装置、计算机设备及存储介质
本申请涉及音色转换
,特别涉及一种声学特征的确定方法、装置、计算机设备及存储介质。
技术介绍
随着深度学习的发展,音色转换领域有了新的进展。音色转换是对语音数据的音色进行转换,使得所得到的语音数据从原说话人的音色转换为目标说话人的音色。音色转换过程中,需要根据原说话人的语音数据中无关音色的内容信息,合成目标说话人的声学特征,并通过合成后的声学特征进行语音重建,以得到目标说话人的语音数据,此时,该处理得到的语音数据与处理前的语音数据具有相同的语音内容,但是音色不同,通过上述过程可以获知,声学特征的确定过程是音色转换技术的研究重点。相关技术中,在进行声学特征的确定时,可以通过语音识别系统提取得到原说话人的语音数据中的音素信息和基频信息,将音素信息和基频信息作为无关音色的内容信息,直接输入声学模型,可以合成目标说话人的声学特征。然而,由于原说话人的基频分布与目标说话人的基频分布可能差异过大,会导致合成异常,如将女声转换为男声时,女声音高,男声音低,合成的声学特征质量不好,稳定性不高,从而在后续经过语音重建所得到的语音数据会存在颤音。
技术实现思路
本申请实施例提供了一种声学特征的确定方法、装置、计算机设备及存储介质,能够解决相关技术中合成的声学特征质量不好,稳定性不高的问题。所述技术方案如下:一方面,提供了一种声学特征的确定方法,所述方法包括:提取第一语音数据的音素信息和基频信息,所述第一语音数据为第一音色的语音数据;基于所述基频信息,获取所述第一语音数据的第一基频分布信息;基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,所述第二语音数据为第二音色的语音数据;将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型,输出所述第二音色的声学特征。在一种可能实现方式中,所述基于所述基频信息,获取所述第一语音数据的第一基频分布信息,包括:对所述基频信息进行均值方差归一化处理,得到所述第一语音数据的第一基频分布信息。在一种可能实现方式中,所述对所述基频信息进行均值方差归一化处理,得到所述第一语音数据的第一基频分布信息,包括:基于所述基频信息,确定所述第一语音数据在对数域的基频分布均值和基频分布方差,将所述基频分布均值和所述基频分布方差作为所述第一语音数据的第一基频分布信息。在一种可能实现方式中,所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息之前,所述方法还包括:获取所述第二音色的第二语音数据;基于所述第二音色的第二语音数据,确定所述第二语音数据的基频信息;对所述第二语音数据的基频信息,进行均值方差归一化处理,得到所述第二语音数据的第二基频分布信息。在一种可能实现方式中,所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,包括:基于所述基频信息、所述第一语音数据的第一基频分布信息与所述第二语音数据的第二基频分布信息,利用下述公式计算所述第一语音数据的目标基频分布信息:式中:log_f0为所述第一语音数据的目标基频分布信息,f0s为所述基频信息,μs为所述第一语音数据的基频分布均值,σs为所述第一语音数据的基频分布方差,μr为所述第二语音数据的基频分布均值,σr为所述第二语音数据的基频分布方差。在一种可能实现方式中,所述将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型之前,所述方法还包括:提取样本原语音数据中的音素信息和基频信息,以及样本目标语音数据的样本声学特征,所述样本原语音数据和所述样本目标语音数据具有相同的语音内容;基于所述样本原语音数据中的音素信息、所述基频信息和所述样本目标语音数据的样本声学特征进行模型训练,得到所述目标声学模型。在一种可能实现方式中,所述基于所述样本原语音数据中的音素信息、所述基频信息和所述样本目标语音数据的样本声学特征进行模型训练,得到所述目标声学模型,包括:在一次迭代过程中,将样本原语音数据中的音素信息与基频信息,输入初始模型,得到本次迭代过程的声学特征训练结果;基于本次迭代过程的声学特征训练结果与样本声学特征,对模型参数进行调整,直到训练满足目标条件,则将满足目标条件的迭代过程所对应的模型获取为目标声学模型。一方面,提供了一种声学特征的确定装置,所述装置包括:提取模块,用于提取第一语音数据的音素信息和基频信息,所述第一语音数据为第一音色的语音数据;获取模块,用于基于所述基频信息,获取所述第一语音数据的第一基频分布信息;映射模块,用于基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,所述第二语音数据为第二音色的语音数据;输出模块,用于将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型,输出所述第二音色的声学特征。在一种可能实现方式中,所述获取模块,用于:对所述基频信息进行均值方差归一化处理,得到所述第一语音数据的第一基频分布信息。在一种可能实现方式中,所述获取模块,用于:基于所述基频信息,确定所述第一语音数据在对数域的基频分布均值和基频分布方差,将所述基频分布均值和所述基频分布方差作为所述第一语音数据的第一基频分布信息。在一种可能实现方式中,所述获取模块,还用于:获取所述第二音色的第二语音数据;基于所述第二音色的第二语音数据,确定所述第二语音数据的基频信息;对所述第二语音数据的基频信息,进行均值方差归一化处理,得到所述第二语音数据的第二基频分布信息。在一种可能实现方式中,所述映射模块,用于:基于所述基频信息、所述第一语音数据的第一基频分布信息与所述第二语音数据的第二基频分布信息,利用下述公式计算所述第一语音数据的目标基频分布信息:式中:log_f0为所述第一语音数据的目标基频分布信息,f0s为所述基频信息,μs为所述第一语音数据的基频分布均值,σs为所述第一语音数据的基频分布方差,μr为所述第二语音数据的基频分布均值,σr为所述第二语音数据的基频分布方差。在一种可能实现方式中,所述装置还包括训练模块,用于:提取样本原语音数据中的音素信息和基频信息,以及样本目标语音数据的样本声学特征,所述样本原语音数据和所本文档来自技高网...

【技术保护点】
1.一种声学特征的确定方法,其特征在于,所述方法包括:/n提取第一语音数据的音素信息和基频信息,所述第一语音数据为第一音色的语音数据;/n基于所述基频信息,获取所述第一语音数据的第一基频分布信息;/n基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,所述第二语音数据为第二音色的语音数据;/n将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型,输出所述第二音色的声学特征。/n

【技术特征摘要】
1.一种声学特征的确定方法,其特征在于,所述方法包括:
提取第一语音数据的音素信息和基频信息,所述第一语音数据为第一音色的语音数据;
基于所述基频信息,获取所述第一语音数据的第一基频分布信息;
基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,所述第二语音数据为第二音色的语音数据;
将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型,输出所述第二音色的声学特征。


2.根据权利要求1所述的方法,其特征在于,所述基于所述基频信息,获取所述第一语音数据的第一基频分布信息,包括:
对所述基频信息进行均值方差归一化处理,得到所述第一语音数据的第一基频分布信息。


3.根据权利要求2所述的方法,其特征在于,所述对所述基频信息进行均值方差归一化处理,得到所述第一语音数据的第一基频分布信息,包括:
基于所述基频信息,确定所述第一语音数据在对数域的基频分布均值和基频分布方差,将所述基频分布均值和所述基频分布方差作为所述第一语音数据的第一基频分布信息。


4.根据权利要求2所述的方法,其特征在于,所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息之前,所述方法还包括:
获取所述第二音色的第二语音数据;
基于所述第二音色的第二语音数据,确定所述第二语音数据的基频信息;
对所述第二语音数据的基频信息,进行均值方差归一化处理,得到所述第二语音数据的第二基频分布信息。


5.根据权利要求1所述的方法,其特征在于,所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息,将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域,得到所述第一语音数据的目标基频分布信息,包括:
基于所述基频信息、所述第一语音数据的第一基频分布信息与所述第二语音数据的第二基频分布信息,利用下述公式计算所述第一语音数据的目标基频分布信息:



式中:log_f0为所述第一语音数据的目标基频分布信息,f0s为所述基频信息,μs为所述第一语音数据的...

【专利技术属性】
技术研发人员:孙洪文肖纯智
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1