音色克隆方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：40046671 阅读：32 留言：0更新日期：2024-01-16 20:33

本申请提供的音色克隆方法、装置、存储介质及计算机设备，获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征后，将文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；这样可以避免直接通过语音合成的方式合成带有不同情绪的音频特征时需要对文本特征进行情感标注的过程，从而节省了人工标注成本；并且，本申请还可以基于目标音色将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，如将带有不同情绪的音频特征中与目标音色最为接近的音频特征进行语音转换，这样既可以快速得到与目标音色对应的音频波形，又可以提高音色克隆的相似度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音色克隆，尤其涉及一种音色克隆方法、装置、存储介质及计算机设备。

技术介绍

1、音色克隆技术主要包含两个方向，一种文本到语音的语音合成技术，一种是语音到语音的语音转换技术。其目标是使生成语音的音色为克隆目标音色。这种技术可以用在配音，直播，社交等领域，进而降低人工成本，并提升社交趣味。

2、目前，基于语音合成技术克隆音色并控制情感，需要大量情感标注，并且，对文本标注语料的标注成本较高，在实际应用中较为困难；而基于语音转换技术来克隆音色，虽然不需要对文本标注语料，但由于缺乏情感控制，进而导致其克隆音色的相似度比语音合成技术要低。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中通过语音合成技术或语音转换技术进行音色克隆时，无法在降低人工标注成本的同时，提高音色克隆的相似度的技术缺陷。

2、本申请提供了一种音色克隆方法，所述方法包括：

3、获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征；

4、将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；

5、基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形。

6、可选地，所述获取至少一个用户输入的文本特征，包括：

7、获取至少一个用户输入的文本信息；

8、确定语音合成模型，所述语音合成模型包括文本编码器；

9、将所述文本信息输入至所述文本编码器中，得到所述文本编码器输出的与所述文本信息对应的文本特征。

10、可选地，所述获取多种待融合的情绪特征，包括：

11、确定情绪提取模型；

12、通过所述情绪提取模型生成不同情绪下的情绪特征，并将不同情绪下的情绪特征作为多种待融合的情绪特征。

13、可选地，所述情绪提取模块包括语音识别网络和分类层；

14、所述通过所述情绪提取模型生成不同情绪下的情绪特征，包括：

15、通过所述语音识别网络生成多种声学特征，其中，所述语音识别网络是使用语音情感数据库对预训练的hubert模型进行微调后得到的；

16、利用所述分类层对各种声学特征进行情绪识别，得到各种声学特征对应的情绪特征。

17、可选地，所述将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征，包括：

18、将所述文本特征和各种情绪特征输入至语音合成模型中，得到所述语音合成模型输出的带有不同情绪的音频特征。

19、可选地，所述语音合成模型包括时长预测模块和解码模块；

20、所述将所述文本特征和各种情绪特征输入至所述语音合成模型中，得到所述语音合成模型输出的带有不同情绪的音频特征，包括：

21、通过所述时长预测模块将所述文本特征和各种情绪特征转换为不同情绪下的音素时长对数；

22、利用所述解码模块根据不同情绪下的音素时长对数生成带有不同情绪的音频特征。

23、可选地，所述基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形，包括：

24、选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征作为目标音频特征；

25、对所述目标音频特征进行语音转换后，得到与所述目标音色对应的音频波形。

26、可选地，所述选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征作为目标音频特征，包括：

27、获取声纹模型；

28、通过所述声纹模型选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征；

29、将所述相似度最高的音频特征作为目标音频特征。

30、可选地，所述声纹模型包括声纹提取模型和声纹匹配模型；

31、所述通过所述声纹模型选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征，包括：

32、通过所述声纹提取模型分别从带有不同情绪的音频特征中提取声纹特征，并形成声纹特征集合，以及，通过所述声纹提取模型提取所述目标音色对应的声纹特征；

33、通过所述声纹匹配模型将所述声纹特征集合中的每一声纹特征分别与所述目标音色对应的声纹特征进行相似度匹配，得到相似度匹配结果；

34、将所述相似度匹配结果中相似度最高的声纹特征对应的音频特征作为目标音频特征。

35、可选地，所述对所述目标音频特征进行语音转换后，得到与所述目标音色对应的音频波形，包括：

36、确定语音转换模型，所述语音转换模型是利用预设时长的目标音色数据对ppg-vc模型进行微调后得到的；

37、通过所述语音转换模型对所述目标音频特征进行语音转换，得到与所述目标音色对应的音频波形。

38、本申请还提供了一种音色克隆装置，包括：

39、数据获取模块，用于获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征；

40、特征融合模块，用于将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；

41、音色克隆模块，用于基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形。

42、本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述音色克隆方法的步骤。

43、本申请还提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

44、所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述实施例中任一项所述音色克隆方法的步骤。

45、从以上技术方案可以看出，本申请实施例具有以下优点：

46、本申请提供的音色克隆方法、装置、存储介质及计算机设备，在进行音色克隆时，可以先获取至少一个用户输入的文本特征、待克隆的目标音色，以及多种待融合的情绪特征，接着将文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征；该过程使用特征融合的方式将文本特征与各种情绪特征进行融合，并对融合后的文本特征进行语音合成操作，进而避免了直接通过语音合成的方式合成带有不同情绪的音频特征时需要对文本特征进行情感标注的过程，从而节省了人工标注成本；并且，本申请还可以基于目标音色将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，如将带有不同情绪的音频特征中与目标音色最为接近的音频特征进行语音转换，这样既可以快速得到与目标音色对应的音频波形，本文档来自技高网...

【技术保护点】

1.一种音色克隆方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音色克隆方法，其特征在于，所述获取至少一个用户输入的文本特征，包括：

3.根据权利要求1所述的音色克隆方法，其特征在于，所述获取多种待融合的情绪特征，包括：

4.根据权利要求3所述的音色克隆方法，其特征在于，所述情绪提取模块包括语音识别网络和分类层；

5.根据权利要求1或2所述的音色克隆方法，其特征在于，所述将所述文本特征分别与各种情绪特征进行融合，并将融合后的文本特征合成为带有不同情绪的音频特征，包括：

6.根据权利要求5所述的音色克隆方法，其特征在于，所述语音合成模型包括时长预测模块和解码模块；

7.根据权利要求1所述的音色克隆方法，其特征在于，所述基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标音色对应的音频波形，包括：

8.根据权利要求7所述的音色克隆方法，其特征在于，所述选取带有不同情绪的音频特征中与所述目标音色的音频特征相似度最高的音频特征作为目标音频特征，包括：

...

【技术特征摘要】

1.一种音色克隆方法，其特征在于，所述方法包括：

2.根据权利要求1所述的音色克隆方法，其特征在于，所述获取至少一个用户输入的文本特征，包括：

3.根据权利要求1所述的音色克隆方法，其特征在于，所述获取多种待融合的情绪特征，包括：

4.根据权利要求3所述的音色克隆方法，其特征在于，所述情绪提取模块包括语音识别网络和分类层；

6.根据权利要求5所述的音色克隆方法，其特征在于，所述语音合成模型包括时长预测模块和解码模块；

7.根据权利要求1所述的音色克隆方法，其特征在于，所述基于所述目标音色，将带有不同情绪的音频特征中的至少一个音频特征进行语音转换，得到与所述目标...

【专利技术属性】
技术研发人员：黄祥康，马金龙，盘子圣，周阳，熊佳，徐志坚，谢睿，陈光尧，
申请(专利权)人：广州趣研网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人