语音处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：31502034 阅读：27 留言：0更新日期：2021-12-22 23:21

本申请公开了一种语音处理方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，在进行语音降噪时，无需通过结构复杂的模型进行噪声识别，直接基于语音数据的频域信息确定一个第一掩码，将第一掩码与语音数据的频谱结合，就能够得到目标语音数据，在保证降噪效果的同时，提高了语音降噪的速度，减少了计算资源的消耗。减少了计算资源的消耗。减少了计算资源的消耗。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、设备以及存储介质

[0001]本申请涉及计算机
，特别涉及一种语音处理方法、装置、设备以及存储介质。

技术介绍

[0002]语音增强是指当语音数据被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的原始语音，从而抑制、降低噪声干扰。简而言之，语音增强是指从含噪语音中提取尽可能纯净的原始语音。
[0003]相关技术中，会基于深度学习算法来进行语音增强，比如通过深度学习算法对语音数据进行语音活动检测(Voice Activity Detection，VAD)，随后基于VAD结果从语音数据中识别出噪声，将语音数据与噪声相减后得到纯净的原始语音。
[0004]但是，在使用深度学习算法来进行语音增强时，由于涉及多个迭代过程，导致运算资源消耗较大。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法、装置、设备以及存储介质，可以在保证语音降噪效果的前提下，降低运算资源的消耗。所述技术方案如下：
[0006]一方面，提供了一种语音处理方法，所述方法包括：/>[0007]获取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取语音数据的多个频域信息，所述多个频域信息和所述语音数据的多个音频帧一一对应；对所述多个频域信息进行特征提取，得到多个第一频域特征，所述第一频域特征是基于对应的音频帧以及与所述音频帧相邻的音频帧确定的；基于所述多个第一频域特征，获取所述语音数据的第一掩码，所述第一掩码用于去除所述语音数据中的噪声；基于所述语音数据的频谱和所述第一掩码，生成目标语音数据。2.根据权利要求1所述的方法，其特征在于，所述获取语音数据的多个频域信息包括：对所述语音数据进行分帧和加窗，得到所述多个音频帧；对所述多个音频帧进行时频变换，得到多个初始频域信息；对所述多个初始频域信息进行归一化处理，得到所述多个频域信息。3.根据权利要求2所述的方法，其特征在于，所述对所述多个初始频域信息进行归一化处理，得到所述多个频域信息包括：获取所述多个初始频域信息的均值和方差；采用所述均值和所述方差，对所述多个初始频域信息进行归一化处理，得到所述多个频域信息。4.根据权利要求1所述的方法，其特征在于，所述对所述多个频域信息进行特征提取，得到多个第一频域特征包括：将所述多个频域信息输入语音增强模型，通过所述语音增强模型，对所述多个频域信息进行特征提取，得到多个第二频域特征；通过所述语音增强模型，按照所述多个音频帧的排列顺序，基于所述多个第二频域特征，获取所述多个第一频域特征。5.根据权利要求4所述的方法，其特征在于，所述按照所述多个音频帧的排列顺序，基于所述多个第二频域特征，获取所述多个第一频域特征包括：对于所述多个音频帧中的任一音频帧，基于所述音频帧的第二频域特征以及与所述音频帧相邻的至少一个音频帧的第二频域特征，获取所述音频帧的第一频域特征。6.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一频域特征，获取所述语音数据的第一掩码包括：通过语音增强模型，对所述多个第一频域特征进行全连接处理，得到所述语音数据的第一掩码。7.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据的频谱和所述第一掩码信息，生成目标语音数据包括：通过语音增强模型，将所述语音数据的频谱的多个频点与所述第一掩码相乘，得到第一目标频谱；将所述第一目标频谱转化为所述目标语音数据。8.根据权利要求4
‑
7任一项所述的方法，其特征在于，所述方法还包括：获取第一样本语音数据和第二样本语音数据，所述第二样本语音数据是对所述第一样本语音数据加噪后得到的语音数据；
将所述第二样本语音数据输入所述语音增强模型，通过所述语音增强模型，获取所述第二样本语音数...

【专利技术属性】
技术研发人员：张思宇，高毅，罗程，李斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人