语音合成方法、装置、存储介质和电子设备制造方法及图纸

技术编号：37374162 阅读：16 留言：0更新日期：2023-04-27 07:18

本公开涉及人工智能领域，具体地，涉及一种语音合成方法、装置、存储介质和电子设备。该方法包括：通过第一类型的发音特征提取模型，分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息；通过第二类型的发音特征提取模型，分别确定目标发音人对应的第三发音特征信息、以及每个参考发音人对应的第四发音特征信息；根据第一发音特征信息、第二发音特征信息、第三发音特征信息和第四发音特征信息，确定目标发音特征信息；根据目标发音特征信息和待合成的文本信息进行语音合成，以得到目标语音。如此，能够在确保目标语音合成效果的情况下，减少对目标发音人的语料数据的需求量。求量。求量。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、存储介质和电子设备

[0001]本公开涉及人工智能领域，具体地，涉及一种语音合成方法、装置、存储介质和电子设备。

技术介绍

[0002]现有语音合成系统通常是由目标发音人录制大量语料数据，基于这些语料数据合成该目标发音人的语音。虽然通过该方法合成的语音音色与发音人本身发出的语音较为接近，但是需要录制目标发音人的大量语料数据，工作量大，耗费周期长，而且成本较高。

技术实现思路

[0003]本公开的目的是提供一种语音合成方法、装置、存储介质和电子设备，以在确保语音合成效果的情况下，减少对目标发音人的语料数据的需求量。
[0004]为了实现上述目的，本公开第一方面提供一种语音合成方法，该方法包括：
[0005]通过第一类型的发音特征提取模型，分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息；
[0006]通过第二类型的发音特征提取模型，分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息，其中，所述第二类型与所述第一类型不同；
[0007]根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息，确定目标发音特征信息；
[0008]根据所述目标发音特征信息和待合成的文本信息进行语音合成，以得到目标语音。
[0009]可选地，所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：通过第一类型的发音特征提取模型，分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息；通过第二类型的发音特征提取模型，分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息，其中，所述第二类型与所述第一类型不同；根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息，确定目标发音特征信息；根据所述目标发音特征信息和待合成的文本信息进行语音合成，以得到目标语音。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息，确定目标发音特征信息，包括：确定每个所述参考发音人对应的权重信息；根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息，确定所述目标发音特征信息。3.根据权利要求2所述的方法，其特征在于，所述确定每个所述参考发音人对应的权重信息，包括：针对每个所述参考发音人，确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度，并根据所述第一相似度，确定所述参考发音人对应的第一权重；针对每个所述参考发音人，确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度，并根据所述第二相似度，确定所述参考发音人对应的第二权重；所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息，确定所述目标发音特征信息，包括：根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重，确定所述目标发音特征信息。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重，确定所述目标发音特征信息，包括：根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重，确定第一融合特征信息；根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重，确定第二融合特征信息；根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重，确定所述目标发音特征信息。

【专利技术属性】
技术研发人员：付景川，李锐，
申请(专利权)人：达闼科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人