System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 音色混合方法和装置、音频处理方法和装置、电子设备、存储介质制造方法及图纸_技高网

音色混合方法和装置、音频处理方法和装置、电子设备、存储介质制造方法及图纸

技术编号:41246022 阅读:4 留言:0更新日期:2024-05-09 23:56
本申请公开一种音色混合方法及装置、音频处理方法及装置、电子设备、存储介质。本申请实施例的音色混合方法包括:获取多个音色特征序列;对所述多个音色特征序列进行降维,得到多个降维音色序列;对所述多个降维音色序列进行融合,得到融合降维音色序列;以及对所述融合降维音色序列进行升维,得到用于控制声学神经网络输出的音频音色的混合音色序列。本申请的音色混合和音频处理方法能够在混合音色时保留关键音色特征并有效剔除背景噪声和其他干扰信息,解决传统粗暴线性混音的缺陷,实现了具有混合音色的更清晰、自然,稳定和逼真的音频输出。

【技术实现步骤摘要】

本申请涉及音频处理,具体地涉及音色混合方法和装置、音频处理方法和装置以及相关的电子设备和存储介质。


技术介绍

1、在相关领域,多种音频处理技术正在发展之中,涉及包括但不限于语音合成(text-to-speech,tts)和语音转换(voice conversion,vc)。这些技术的应用范围广泛,例如在语音合成、语音助手以及有声图书等方面均有所涉及。在这些音频处理技术中,特别是在语音合成领域,希望在创造多样化的声音效果和提供个性化的音频输出。

2、此
技术介绍
的说明旨在帮助理解相关领域内的相关技术,并不代表承认
技术介绍
内容属于现有技术。


技术实现思路

1、因此,本申请实施例旨在提供一种音色混合方法和装置、音频处理方法和装置、电子设备、存储介质,从而针对音频处理技术,包括但不限于语音合成、语音转换、歌声合成等,提出了优良的混合音色控制解决方案,并且可选地至少解决或改善混合音频、例如语音或歌声的音色不稳定、音色不自然、音质较差以及背景噪声较大等问题之一。

2、第一方面,本申请实施例提供了一种音色混合方法,所述音色混合方法包括:

3、获取多个音色特征序列;

4、对所述多个音色特征序列进行降维,得到多个降维音色序列;

5、对所述多个降维音色序列进行融合,得到融合降维音色序列;以及

6、对所述融合降维音色序列进行升维,得到用于控制声学神经网络输出的音频音色的混合音色序列。

7、本申请的一些实施例中,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

8、利用pca变换对所述多个音色特征序列进行降维,并确定所述主成分分析法降维对应的主成分系数和均值;

9、所述对所述融合降维音色序列进行升维,得到用于控制声学神经网络输出的音频音色的混合音色序列,包括:

10、基于所确定的所述主成分系数和均值,利用逆向pca变换对所述混合音色序列进行升维。

11、本申请的一些实施例中,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

12、对所述多个降维音色序列加权求和以得到所述融合降维音色序列。

13、本申请的一些实施例中,所述获取多个音色特征序列,包括:

14、获取多个初始音色特征序列:

15、对所述多个初始音色特征序列进行聚类处理;

16、基于所述多个初始音色特征序列的聚类中心,生成所述多个音色特征序列。

17、本申请的一些实施例中,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

18、基于所述多个初始音色特征序列的聚类数量,确定所述多个音色特征序列的降维维度。

19、第二方面,本申请实施例提供了一种音频处理方法,所述音频处理方法包括:

20、获取用于控制目标音频内容的第一控制序列;

21、获取多个音色特征序列;

22、对所述多个音色特征序列进行降维,得到多个降维音色序列;

23、对所述多个降维音色序列进行融合,得到融合降维音色序列;

24、对所述融合降维音色序列进行升维,得到用于控制目标音频音色的第二控制序列;以及

25、将所述第一控制序列和第二控制序列输入给定的声学神经网络以得到目标音频。

26、本申请的一些实施例中,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:利用pca变换对所述多个音色特征序列进行降维,并确定所述主成分分析法降维对应的主成分系数和均值;

27、所述对所述融合降维音色序列进行升维,得到用于控制声学神经网络输出的音频音色的混合音色序列,包括:

28、基于所确定的所述主成分系数和均值,利用逆向pca变换对所述混合音色序列进行升维。

29、本申请的一些实施例中,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

30、对所述多个降维音色序列加权求和以得到所述融合降维音色序列。

31、本申请的一些实施例中,所述获取多个音色特征序列,包括:

32、获取多个初始音色特征序列:

33、对所述多个初始音色特征序列进行聚类处理;

34、基于所述多个初始音色特征序列的聚类中心,生成所述多个音色特征序列。

35、本申请的一些实施例中,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

36、基于所述多个初始音色特征序列的聚类数量,确定所述多个音色特征序列的降维维度。

37、本申请的一些实施例中,所述音频处理方法为语音合成(tts)方法,其中,所述第一控制序列为用于合成目标语音的文本序列,所述声学神经网络为语音合成模型。

38、本申请的一些实施例中,所述音频处理方法为语音转换(vc)方法,所述第一控制序列为用于转换成目标语音的待转换语音序列,所述声学神经网络为语音转换模型。

39、本申请的一些实施例中,所述获取多个音色特征序列,包括:从所述待转换语音序列提取音色特征得到第一音色特征序列,以及,获取预先提供的一个或多个第二音色特征序列;

40、所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:对所述第一音色特征序列进行降维,得到第一降维音色序列,以及,对所述一个或多个第二音色特征序列进行降维,得到一个或多个第二降维音色序列;

41、所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:将所述第一降维音色序列和所述一个或多个第二降维音色序列加权求和,得到所述融合降维音色序列

42、本申请的一些实施例中,其中所述第一降维音色序列的权重大于所述一个或多个第二降维音色序列的总权重。

43、本申请的一些实施例中,所述音频处理方法为歌声合成方法,所述第一控制序列为用于合成目标歌声的歌词文本序列,所述声学神经网络为歌声合成模型,

44、所述音频处理方法还包括:获取用于控制目标歌声旋律的第三控制序列,其中所述第三控制序列包括所述歌词文本序列对应的歌曲的一个或多个旋律特征;

45、所述将所述第一控制序列和第二控制序列输入给定的声学神经网络以得到目标音频,包括:将所述第一控制序列、第二控制序列和第三控制序列输入所述歌声合成模型以得到所述目标歌声。

46、第三方面,本申请实施例提供了一种音色混合装置,所述音色混合装置包括:

47、获取单元,配置成获取多个音色特征序列;

48、降维单元,配置成对所述多个音色特征序列进行降维,得到多个降维音色序列;

49、融合单元,配置成对所述多个降维音色序列进行融合,得到融合降维音色序列;以及

50、升维单元,配置成对所述融合降维音色序列进行升维,得到用于控制声学神经网络输出的音频音色的混合音色序列。

51、第四方面,本本文档来自技高网...

【技术保护点】

1.一种音色混合方法,其特征在于,所述音色混合方法包括:

2.根据权利要求1所述的音色混合方法,其特征在于,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

3.根据权利要求1或2所述的音色混合方法,其特征在于,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

4.根据权利要求1所述的音色混合方法,其特征在于,所述获取多个音色特征序列,包括:

5.根据权利要求4所述的音色混合方法,其特征在于,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

6.一种音频处理方法,其特征在于,所述音频处理方法包括:

7.根据权利要求6所述的音频处理方法,其特征在于,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:利用PCA变换对所述多个音色特征序列进行降维,并确定所述主成分分析法降维对应的主成分系数和均值;

8.根据权利要求6或7所述的音频处理方法,其特征在于,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

9.根据权利要求6所述的音频处理方法,其特征在于,所述获取多个音色特征序列,包括:

10.根据权利要求9所述的音频处理方法,其特征在于,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

11.根据权利要求6至10中任一项所述的音频处理方法,其特征在于,所述音频处理方法为语音合成(TTS)方法,其中,所述第一控制序列为用于合成目标语音的文本序列,所述声学神经网络为语音合成模型。

12.根据权利要求6至10中任一项所述的音频处理方法,其特征在于,所述音频处理方法为语音转换(VC)方法,所述第一控制序列为用于转换成目标语音的待转换语音序列,所述声学神经网络为语音转换模型。

13.根据权利要求12所述的音频处理方法,其特征在于,所述获取多个音色特征序列,包括:从所述待转换语音序列提取音色特征得到第一音色特征序列,以及,获取预先提供的一个或多个第二音色特征序列;

14.根据权利要求13所述的音频处理方法,其特征在于,其中所述第一降维音色序列的权重大于所述一个或多个第二降维音色序列的总权重。

15.根据权利要求6至10中任一项所述的音频处理方法,其特征在于,所述音频处理方法为歌声合成方法,所述第一控制序列为用于合成目标歌声的歌词文本序列,所述声学神经网络为歌声合成模型,

16.一种音色混合装置,其特征在于,所述音色混合装置包括:

17.一种音频处理装置,其特征在于,所述音频处理装置包括:

18.根据权利要求17所述的音频处理装置,其特征在于,所述音频处理装置包括语音合成装置,其中,所述第一控制序列为用于合成目标语音的文本序列,所述声学神经网络为语音合成模型。

19.根据权利要求17所述的音频处理装置,其特征在于,所述音频处理装置包括语音转换装置,其中,所述第一控制序列为用于转换成目标语音的待转换语音序列,所述声学神经网络为语音转换模型。

20.根据权利要求17所述的音频处理装置,其特征在于,所述音频处理装置包括歌声合成装置,其中,所述第一控制序列为用于合成目标歌声的歌词文本序列,所述声学神经网络为歌声合成模型,

21.一种电子设备,其特征在于,包括处理器和存储有计算机程序的存储器,所述处理器被配置为在运行所述计算机程序时实现如权利要求1至15中任一项所述的方法。

22.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被配置为被运行时实现如权利要求1至15中任一项所述的方法。

...

【技术特征摘要】

1.一种音色混合方法,其特征在于,所述音色混合方法包括:

2.根据权利要求1所述的音色混合方法,其特征在于,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

3.根据权利要求1或2所述的音色混合方法,其特征在于,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

4.根据权利要求1所述的音色混合方法,其特征在于,所述获取多个音色特征序列,包括:

5.根据权利要求4所述的音色混合方法,其特征在于,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

6.一种音频处理方法,其特征在于,所述音频处理方法包括:

7.根据权利要求6所述的音频处理方法,其特征在于,所述对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:利用pca变换对所述多个音色特征序列进行降维,并确定所述主成分分析法降维对应的主成分系数和均值;

8.根据权利要求6或7所述的音频处理方法,其特征在于,所述对所述多个降维音色序列进行融合,得到融合降维音色序列,包括:

9.根据权利要求6所述的音频处理方法,其特征在于,所述获取多个音色特征序列,包括:

10.根据权利要求9所述的音频处理方法,其特征在于,对所述多个音色特征序列进行降维,得到多个降维音色序列,包括:

11.根据权利要求6至10中任一项所述的音频处理方法,其特征在于,所述音频处理方法为语音合成(tts)方法,其中,所述第一控制序列为用于合成目标语音的文本序列,所述声学神经网络为语音合成模型。

12.根据权利要求6至10中任一项所述的音频处理方法,其特征在于,所述音频处理方法为语音转换(vc)方法,所述第一控制序列为用于转换成目标语音的待转换语音序列,所述声学神经网络为...

【专利技术属性】
技术研发人员:张博闻李亚伟杨明祺
申请(专利权)人:北京稀宇极智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1