一种终端设备和基于声纹特征的音频处理方法技术

技术编号：40874425 阅读：2 留言：0更新日期：2024-04-08 16:42

本申请提供一种终端设备和基于声纹特征的音频处理方法，方法包括：终端设备获取初始音频，以及获取目标声纹特征，其中目标声纹特征是用于生成目标音频数据的声纹特征，通过声纹编码器分离初始音频，得到频域信号，以及将频域信号发送至声纹解码器，再通过声纹解码器将频域信号还原为时域信号，最后基于时域信号和目标声纹特征生成带有目标声纹特征的目标音频。所述方法在执行音频处理时，不依赖文本内容的识别，可以直接通过目标声纹特征输出带有目标声纹特征的目标音频，减少对编码器、解码器等的训练时长，且不受限于初始音频的完整性，进而解决音频处理过程效率低、适用场景受限的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音变换算法，尤其涉及一种终端设备和基于声纹特征的音频处理方法。

技术介绍

1、智能电视、手机等终端设备可以输出视频、音频等媒资。例如，终端设备中可以安装有录歌软件或者娱乐软件，通过录歌软件或者娱乐软件可以实现声纹的变声等音频处理，其中，声纹即是指用户音频中语言特征的基波和谐波之间形成的特殊声学特征。

2、在一些实施例中，可以通过深度学习音频的方法实现音频处理。音频数据根据其数据类型可以分为平行数据和非平行数据。在对平行数据执行音频处理的过程中，以变声处理为例，在具备了大量的说话者初始音频与音频处理后的目标音频后，可以通过标注音频中的字，生成只有文本内容相关的向量，通过向量完成平行数据中音频内容的匹配。最终达到的效果为，无论说话者说的的内容是什么，最终都可以输出包含同样文本内容的目标音频，但此方式的前提是拥有足够数量的初始音频和目标音频。在对非平行数据执行音频处理时，可以通过文本内容编码器提取初始音频中的文本内容，如“今天天气真好”，之后，可以通过语言特征编码器提取变身后的目标音频的目标语言特征，这两个过程即为分离的过程。分离完成之后，可以通过解码器对文本内容和目标语言特征执行重新编码，最终生成音频处理后的目标音频。

3、但是，在上述处理过程中，需要对文本内容编码器、语言特征编码器和解码器这三者均进行训练，才能得到精准的音频处理后的目标音频。通过上述方式对平行数据或非平行数据执行音频处理时，无论是对初始音频数据的获取，还是对文本内容编码器、语言特征编码器和解码器的训练，都是十分困难且耗时的，导致

技术实现思路

1、本申请一些实施例提供一种终端设备和基于声纹特征的音频处理方法，以解决音频处理过程效率低、适用场景受限的问题。

2、第一方面，本申请一些实施例提供一种终端设备，包括：

3、声纹编码器：被配置为对初始音频中的初始声纹特征执行分离；

4、声纹解码器：被配置为输出带有目标声纹特征的目标音频；

5、控制器被配置为：

6、获取初始音频，以及获取目标声纹特征，所述目标声纹特征是用于生成目标音频数据的声纹特征；

7、通过声纹编码器分离所述初始音频，得到频域信号，以及将所述频域信号发送至声纹解码器；

8、通过所述声纹解码器将所述频域信号还原为时域信号；

9、基于所述时域信号和所述目标声纹特征生成带有所述目标声纹特征的目标音频。

10、在一些实施例中，所述控制器执行通过声纹编码器分离所述初始音频，得到频域信号的步骤，进一步被配置为：

11、提取所述初始音频中的语音信号，得到初始语音信号；

12、对所述初始语音信号依次执行高频增强预处理、分帧加窗和离散傅里叶变换，以将所述初始语音信号转换为频域信号。

13、在一些实施例中，所述控制器进一步被配置为：

14、使用梅尔滤波器组过滤所述频域信号；

15、将过滤后的频域信号取对数，以得到取对数能量；

16、对所述取对数能量执行余弦变换，得到梅尔倒谱系数，以通过所述梅尔倒谱系数对所述初始音频执行深度学习。

17、在一些实施例中，所述控制器执行通过所述声纹解码器将所述频域信号还原为时域信号的步骤，进一步被配置为：

18、通过所述声纹解码器接收所述频域信号；

19、按照所述目标声纹特征对所述频域信号执行频移，得到拟合频率信号；

20、对所述拟合频率信号执行幅值匹配，生成所述目标声纹特征的音色和音调；

21、对所述音色和所述音调执行逆离散傅里叶变换，以及对逆离散傅里叶变换后的音色和音调执行时域重采样；

22、对时域重采样后的音色和音调执行帧拼接，以将所述频域信号还原为时域信号。

23、在一些实施例中，所述控制器执行按照所述目标声纹特征对所述频域信号执行频移，得到拟合频率信号的步骤，进一步被配置为：

24、获取所述目标声纹特征的目标基频；

25、基于所述目标基频对所述频域信号执行移频匹配，以拟合出幅值与所述频域信号相同、频率与所述目标基频相同的拟合频率信号。

26、在一些实施例中，所述控制器执行对所述拟合频率信号执行幅值匹配，生成所述目标声纹特征的音色和音调的步骤，进一步被配置为：

27、获取所述拟合频域信号中的第一谐波；

28、获取所述目标声纹特征中的第二谐波和所述第二谐波相对于所述目标基频的幅值；

29、基于所述第二谐波和所述幅值对所述第一谐波执行加权计算，以生成所述目标声纹特征的音色和音调。

30、在一些实施例中，所述控制器进一步被配置为：

31、获取所述初始音频在不同谐波下的幅值；

32、通过拟合非线性函数对所述幅值执行加权计算，以对所述初始音频执行训练，得到对所述初始音频的分类结果；

33、输出所述分类结果。

34、在一些实施例中，所述控制器进一步被配置为：

35、检测所述初始音频的音频类别，所述音频类别包括人声音频和干扰音频；

36、如果所述音频类别为所述干扰音频，将终端设备设置为待机状态；

37、如果所述音频类别为所述人声音频，启动所述声纹编码器，以及上传所述初始音频中的初始声纹特征集，所述初始声纹特征集为所述初始音频中声纹特征的集合；

38、对所述初始声纹特征集执行深度学习，以及对深度学习的学习结果执行分类保存。

39、在一些实施例中，所述控制器执行对所述初始声纹特征集执行深度学习，以及对深度学习的学习结果执行分类保存的步骤，进一步被配置为：

40、解析所述初始声纹特征集，以获取所述初始音频中的初始声纹特征；

41、通过深度学习算法对所述初始声纹特征执行标注；

42、对标注后的初始声纹特征执行分类，得到分类的学习结果；

43、按照分类的类别保存所述学习结果。

44、第二方面，本申请一些实施例提供一种基于声纹特征的音频处理方法，可以应用于第一方面的终端设备，所述终端设备包括声纹编码器、声纹解码器和控制器，所述基于声纹特征的音频处理方法包括：

45、获取初始音频，以及获取目标声纹特征，所述目标声纹特征是用于生成目标音频数据的声纹特征；

46、通过声纹编码器分离所述初始音频，得到频域信号，以及将所述频域信号发送至声纹解码器；

47、通过所述声纹解码器将所述频域信号还原为时域信号；

48、基于所述时域信号和所述目标声纹特征生成带有所述目标声纹特征的目标音频。

49、由以上技术方案可知，本申请一些实施例提供一种终端设备和基于声纹特征的音频处理方法，方法包括：终端设本文档来自技高网...

【技术保护点】

1.一种终端设备，其特征在于，包括：

2.根据权利要求1所述的终端设备，其特征在于，所述控制器执行通过声纹编码器分离所述初始音频，得到频域信号的步骤，进一步被配置为：

3.根据权利要求2所述的终端设备，其特征在于，所述控制器进一步被配置为：

4.根据权利要求2所述的终端设备，其特征在于，所述控制器执行通过所述声纹解码器将所述频域信号还原为时域信号的步骤，进一步被配置为：

5.根据权利要求4所述的终端设备，其特征在于，所述控制器执行按照所述目标声纹特征对所述频域信号执行频移，得到拟合频率信号的步骤，进一步被配置为：

6.根据权利要求5所述的终端设备，其特征在于，所述控制器执行对所述拟合频率信号执行幅值匹配，生成所述目标声纹特征的音色和音调的步骤，进一步被配置为：

7.根据权利要求1所述的终端设备，其特征在于，所述控制器进一步被配置为：

8.根据权利要求1所述的终端设备，其特征在于，所述控制器进一步被配置为：

9.根据权利要求8所述的终端设备，其特征在于，所述控制器执行对所述初始声纹特征集

10.一种基于声纹特征的音频处理方法，应用于终端设备，所述终端设备包括声纹编码器、声纹解码器和控制器，其特征在于，包括：

...

【技术特征摘要】

1.一种终端设备，其特征在于，包括：

2.根据权利要求1所述的终端设备，其特征在于，所述控制器执行通过声纹编码器分离所述初始音频，得到频域信号的步骤，进一步被配置为：

3.根据权利要求2所述的终端设备，其特征在于，所述控制器进一步被配置为：

4.根据权利要求2所述的终端设备，其特征在于，所述控制器执行通过所述声纹解码器将所述频域信号还原为时域信号的步骤，进一步被配置为：

6.根据权利要求5所述...

【专利技术属性】
技术研发人员：温泓，周鉴星，林子毅，
申请(专利权)人：海信电子科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人