声学特征的确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：23894730 阅读：26 留言：0更新日期：2020-04-22 07:58

本申请公开了一种声学特征的确定方法、装置、计算机设备及存储介质，属于音色转换技术领域。该方法包括：提取第一语音数据的音素信息和基频信息，获取第一语音数据的第一基频分布信息，基于基频信息、第一基频分布信息及第二语音数据的第二基频分布信息，将基频信息映射至第二基频分布信息所在域，得到目标基频分布信息，将音素信息与目标基频分布信息输入目标声学模型，输出第二音色的声学特征。本申请将第一音色的基频信息映射到第二音色的基频分布所在域后，输入目标声学模型，使目标声学模型的输入更符合第二音色的分布，减小了第一音色的基频分布与第二音色的基频分布之间的差异，降低了合成异常的可能性，提高了声学特征的质量和稳定性。

Determination method, device, computer equipment and storage medium of acoustic characteristics

全部详细技术资料下载

【技术实现步骤摘要】
声学特征的确定方法、装置、计算机设备及存储介质
本申请涉及音色转换
，特别涉及一种声学特征的确定方法、装置、计算机设备及存储介质。
技术介绍
随着深度学习的发展，音色转换领域有了新的进展。音色转换是对语音数据的音色进行转换，使得所得到的语音数据从原说话人的音色转换为目标说话人的音色。音色转换过程中，需要根据原说话人的语音数据中无关音色的内容信息，合成目标说话人的声学特征，并通过合成后的声学特征进行语音重建，以得到目标说话人的语音数据，此时，该处理得到的语音数据与处理前的语音数据具有相同的语音内容，但是音色不同，通过上述过程可以获知，声学特征的确定过程是音色转换技术的研究重点。相关技术中，在进行声学特征的确定时，可以通过语音识别系统提取得到原说话人的语音数据中的音素信息和基频信息，将音素信息和基频信息作为无关音色的内容信息，直接输入声学模型，可以合成目标说话人的声学特征。然而，由于原说话人的基频分布与目标说话人的基频分布可能差异过大，会导致合成异常，如将女声转换为男声时，女声音高，男声音低，合成的声学特征质量不好，稳定性不高，从而在后续经过语音重建所得到的语音数据会存在颤音。
技术实现思路
本申请实施例提供了一种声学特征的确定方法、装置、计算机设备及存储介质，能够解决相关技术中合成的声学特征质量不好，稳定性不高的问题。所述技术方案如下：一方面，提供了一种声学特征的确定方法，所述方法包括：提取第一语音数据的音素信息和基频信息，所述第一语音数据为第一音色的语...

【技术保护点】
1.一种声学特征的确定方法，其特征在于，所述方法包括：/n提取第一语音数据的音素信息和基频信息，所述第一语音数据为第一音色的语音数据；/n基于所述基频信息，获取所述第一语音数据的第一基频分布信息；/n基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息，将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域，得到所述第一语音数据的目标基频分布信息，所述第二语音数据为第二音色的语音数据；/n将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型，输出所述第二音色的声学特征。/n

【技术特征摘要】
1.一种声学特征的确定方法，其特征在于，所述方法包括：
提取第一语音数据的音素信息和基频信息，所述第一语音数据为第一音色的语音数据；
基于所述基频信息，获取所述第一语音数据的第一基频分布信息；
基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息，将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域，得到所述第一语音数据的目标基频分布信息，所述第二语音数据为第二音色的语音数据；
将所述音素信息与所述第一语音数据的目标基频分布信息输入目标声学模型，输出所述第二音色的声学特征。

2.根据权利要求1所述的方法，其特征在于，所述基于所述基频信息，获取所述第一语音数据的第一基频分布信息，包括：
对所述基频信息进行均值方差归一化处理，得到所述第一语音数据的第一基频分布信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述基频信息进行均值方差归一化处理，得到所述第一语音数据的第一基频分布信息，包括：
基于所述基频信息，确定所述第一语音数据在对数域的基频分布均值和基频分布方差，将所述基频分布均值和所述基频分布方差作为所述第一语音数据的第一基频分布信息。

4.根据权利要求2所述的方法，其特征在于，所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息，将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域，得到所述第一语音数据的目标基频分布信息之前，所述方法还包括：
获取所述第二音色的第二语音数据；
基于所述第二音色的第二语音数据，确定所述第二语音数据的基频信息；
对所述第二语音数据的基频信息，进行均值方差归一化处理，得到所述第二语音数据的第二基频分布信息。

5.根据权利要求1所述的方法，其特征在于，所述基于所述基频信息、所述第一语音数据的第一基频分布信息以及第二语音数据的第二基频分布信息，将所述基频信息映射至所述第二语音数据的第二基频分布信息所在域，得到所述第一语音数据的目标基频分布信息，包括：
基于所述基频信息、所述第一语音数据的第一基频分布信息与所述第二语音数据的第二基频分布信息，利用下述公式计算所述第一语音数据的目标基频分布信息：

式中：log_f0为所述第一语音数据的目标基频分布信息，f0s为所述基频信息，μs为所述第一语音数据的...

【专利技术属性】
技术研发人员：孙洪文，肖纯智，
申请(专利权)人：广州酷狗计算机科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人