语音处理方法、装置、存储介质及芯片制造方法及图纸

技术编号：40041008 阅读：8 留言：0更新日期：2024-01-16 19:43

本公开涉及一种语音处理方法、装置、存储介质及芯片，涉及音频处理领域，该方法包括：获取目标用户的第一语音；通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息；通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音。能够在美化目标用户的语音的同时，保障用户的语音的可辨识度，能够满足在日常生活中的通话或者录音等场景。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及音频处理领域，尤其涉及一种语音处理方法、装置、存储介质及芯片。

技术介绍

1、在相关技术中，传统的声音美化方法通常有两个方向，一种是通过给声音加混响、调整eq(音频均衡器)、调整drc(动态范围控制)等处理来实现声音的美化，另一种则是将输入的语音进行变声，但这些声音美化的方法并不适合日常生活中的通话或者录音等场景。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、存储介质及芯片。

2、根据本公开实施例的第一方面，提供一种语音处理方法，包括：

3、获取目标用户的第一语音；

4、通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息；

5、通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音。

6、可选地，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

7、通过所述指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音中的目标特征项进行调整，得到调整后的第二语音；其中，所述目标项的调整值小于设定阈值。

8、可选地，所述方法还包括：

9、从音频数据库中获取符合所述指定音色类型的多个样本语音；

10、将所述多个样本语音输入所述特征提取模型，得到所述特征提取模型输出的所述多个样本语音对应的多个声纹特征信息；

12、可选地，所述声纹特征信息包括一种或多种特征项，所述根据所述多个声纹特征信息，确定所述语音调整模型，包括：

13、根据每个所述声纹特征信息中的第一特征项，确定所述第一特征项对应的特征范围，所述第一特征项为所述一种或多种特征项中的任一种特征项，以得到多种特征项分别对应的多个特征范围，作为所述语音调整模型。

14、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

15、将所述声纹特征信息中的各个特征项分别与所述多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

16、对所述目标特征项进行调整，以得到调整后的第二语音。

17、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

18、获取当前所处环境的环境音；

19、根据所述环境音确定对应的环境模式；

20、根据所述环境模式，对所述多种特征项对应的多个特征范围进行调整，得到调整后的多个特征范围；

21、将所述声纹特征信息中的各个特征项分别与所述调整后的多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

22、对所述目标特征项进行调整，以得到调整后的第二语音。

23、可选地，所述从音频数据库中获取符合所述指定音色类型的多个样本语音，包括：

24、从所述音频数据库中获取多个原始语料；

25、通过与所述指定音色类型对应的评分模型确定所述多个原始语料对应的多个评分，所述评分用于表征原始语料与所述指定音色类型的符合程度；

26、根据所述多个评分，在所述多个原始语料中选择大于或等于设定分数的多个原始语料作为所述多个样本语音。

27、可选地，所述评分模型是通过训练集对初始评分模型进行机器学习得到的，所述训练集包括多个训练语料；所述方法还包括：

28、获取历史优化记录，所述历史优化包括已调整过的多个语音；

29、将所述已调整过的多个语音更新所述训练集，得到更新后的训练集；

30、通过更新后的训练集调整所述评分模型。

31、可选地，所述通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息，包括：

32、从所述第一语音中获取所述目标用户的声纹信息；

33、根据所述声纹信息确定所述第一语音中的属于所述目标用户的声音；

34、将所述第一语音除所述目标用户的声音之外的声音滤除，得到过滤后的第一语音；

35、将所述第一语音输入所述特征提取模型，得到所述特征提取模型输出的所述目标用户的声纹特征信息。

36、可选地，所述声纹特征信息包括基频信息、谐波分量、谐波比例、语速和语音延迟中的一种或多种特征项，所述谐波比例为奇次谐波和偶次谐波的比值。

37、可选地，所述指定音色类型对应的语音调整模型为：至少一种指定音色类型分别对应的至少一个语音调整模型。

38、根据本公开实施例的第二方面，提供一种语音处理装置，包括：

39、语音获取模块，被配置为获取目标用户的第一语音；

40、特征获取模块，被配置为通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息；

41、调整模块，被配置为通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音。

42、可选地，所述装置还包括：样本获取模块和训练模块；

43、样本获取模块，被配置为从音频数据库中获取符合所述指定音色类型的多个样本语音；

44、该特征获取模块，还被配置为将所述多个样本语音输入所述特征提取模型，得到所述特征提取模型输出的所述多个样本语音对应的多个声纹特征信息；

45、训练模块，被配置为根据所述多个声纹特征信息，确定所述语音调整模型。

46、可选地，所述声纹特征信息包括一种或多种特征项，所述训练模块，被配置为：

47、根据每个所述声纹特征信息中的第一特征项，确定所述第一特征项对应的特征范围，所述第一特征项为所述一种或多种特征项中的任一种特征项，以得到多种特征项分别对应的多个特征范围，作为所述语音调整模型。

48、可选地，所述语音调整模型包括多种特征项对应的多个特征范围，所述调整模块，被配置为：

49、将所述声纹特征信息中的各个特征项分别与所述多个特征范围中对应的特征范围进行对比，以确定所述各个特征项中不在对应特征范围内的目标特征项；

50、对所述目标特征项进行调整，以得到调整后的第二语音。

51、可选地，所述特征获取模块，被配置为：

52、从所述第一语音中获取所述目标用户的声纹信息；

53、根据所述声纹信息确定所述第一语音中的属于所述目标用户的声音；

54、将所述第一语音除所述目标用户的声音之外的声音滤除，得到过滤后的第一语音；

55本文档来自技高网...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述声纹特征信息包括一种或多种特征项，所述根据所述多个声纹特征信息，确定所述语音调整模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

6.根据权利要求1所述的方法，其特征在于，所述语音调整模型包括多种特征项对应的多个特征范围，所述通过指定音色类型对应的语音调整模型和所述声纹特征信息对所述第一语音进行调整，得到调整后的第二语音，包括：

7.根据权利要求3所述的方法，其特征在于，所述从音频数据库中获取符合所述指定音色类型的多个样本语音，包括：

9.根据权利要求1所述的方法，其特征在于，所述通过特征提取模型从所述第一语音中，获取所述目标用户的声纹特征信息，包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述声纹特征信息包括基频信息、谐波分量、谐波比例、语速和语音延迟中的一种或多种特征项，所述谐波比例为奇次谐波和偶次谐波的比值。

11.根据权利要求1-9任一项所述的方法，其特征在于，所述指定音色类型对应的语音调整模型为：至少一种指定音色类型分别对应的至少一个语音调整模型。

12.一种语音处理装置，其特征在于，包括：

13.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～11中任一项所述方法的步骤。

14.一种芯片，其特征在于，包括处理器和接口；所述处理器用于读取指令以执行权利要求1～11中任一项所述的方法。

...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，所述从音频数据库中获取符合所述指定音色类型的多个样本语音，包括...

【专利技术属性】
技术研发人员：王伟伟，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人