【技术实现步骤摘要】
基于人工智能的语音降噪方法、装置、设备及存储介质
[0001]本申请涉及到人工智能
,特别是涉及到一种基于人工智能的语音降噪方法、装置、设备及存储介质。
技术介绍
[0002]语音中通常包含噪声,当包含噪声的语音应用到实际场景时,降低了语音应用的准确性,影响了用户体验。现有采用基于卷积神经网络训练得到的降噪模型对语音进行降噪,虽然取得了不错的降噪效果,但是该模型对计算资源的要求比较高和需要较长的计算时间,导致无法适用于计算资源有限和/或实时性要求较高的应用场景。
技术实现思路
[0003]本申请的主要目的为提供一种基于人工智能的语音降噪方法、装置、设备及存储介质,旨在解决基于卷积神经网络训练得到的降噪模型,无法适用于计算资源有限和/或实时性要求较高的应用场景的技术问题。
[0004]为了实现上述专利技术目的,本申请提出一种基于人工智能的语音降噪方法,所述方法包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码 ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的语音降噪方法,其特征在于,所述方法包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。2.根据权利要求1所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤,包括:将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征;将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征;将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接,得到待处理音频特征;将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征;将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接,得到待解码音频特征;将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图;将所述待分析频谱图输入所述掩码增益与减益模块进行掩码,得到所述降噪后频谱图。3.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征的步骤,包括:采用所述频域降噪模块的降维子模块,对所述目标音频编码特征进行降维处理,得到降维后编码特征;采用所述频域降噪模块的多头自注意力子模块,对所述降维后编码特征进行频域降噪,得到待升维编码特征,其中,所述多头自注意力子模块是实现多头自注意力机制的模块,所述频域降噪子模块的所述多头自注意力机制的Query的值、Key的值和Value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据;采用所述频域降噪模块的升维子模块,对所述待升维编码特征进行升维处理,得到所述频域降噪后音频特征。4.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征的步骤,包括:采用所述时域降噪模块的特征分组层,对所述待处理音频特征进行划分,得到多个单组音频特征,其中,所述单组音频特征的数量与所述时域降噪子模块的数量相同;
将第i个所述单组音频特征输入第i个所述时域降噪子模块进行时域降噪,得到第i个待组合音频特征,其中,i是大于0的整数;采用所述时域降噪模块的特征组合层,对各个所述待组合音频特征进行特征拼接,得到所述时域降噪后音频特征。5.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征的步骤,包括:采用所述编码模块的第k个编码层,对第k个所述编码层的输入向量进行Pointwise卷积,得到第一音频特征;获取预设的Depthwise卷积时间维度;若所...
【专利技术属性】
技术研发人员:李杰,王广新,杨汉丹,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。