音频降噪方法、装置、设备及存储介质制造方法及图纸

技术编号:30333237 阅读:16 留言:0更新日期:2021-10-10 00:55
本发明专利技术涉及人工智能,提供一种音频降噪方法、装置、设备及存储介质。该方法能够对带噪音频进行预处理,得到频谱信息,基于频域信号处理网络处理频谱信息,得到频谱掩膜特征,根据频谱信息及频谱掩膜特征获取时频特征,基于时域信号处理网络处理时频特征,得到时频掩膜特征,根据时频特征及时频掩膜特征生成预测音频,基于预测音频及纯净音频调整预设学习器的网络参数,得到降噪模型,获取请求音频,基于降噪模型对请求音频进行降噪处理,得到目标音频。本发明专利技术能够提高请求音频的降噪准确性及实时性。此外,本发明专利技术还涉及区块链技术,所述目标音频可存储于区块链中。音频可存储于区块链中。音频可存储于区块链中。

【技术实现步骤摘要】
音频降噪方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种音频降噪方法、装置、设备及存储介质。

技术介绍

[0002]在远程办公通话等电话会议中,对音频降噪的实时性及准确性都有很高的需求,然而,在目前的降噪方式中,通常是在完整的语音序列中对帧级别上的信息进行处理,导致降噪效率低下。
[0003]因此,如何提高音频降噪的实时性及准确性成了亟需解决的技术问题。

技术实现思路

[0004]鉴于以上内容,有必要提供一种音频降噪方法、装置、设备及存储介质,能够提高请求音频的降噪准确性及降噪实时性。
[0005]一方面,本专利技术提出一种音频降噪方法,所述音频降噪方法包括:
[0006]获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
[0007]对所述带噪音频进行预处理,得到频谱信息;
[0008]基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
[0009]根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
[0010]基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
[0011]根据所述时频特征及所述时频掩膜特征生成预测音频;
[0012]基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
[0013]获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0014]根据本专利技术优选实施例,所述获取音频样本包括:
[0015]统计所述纯净音频的音频时长;
[0016]从录制库中获取时长小于或者等于所述音频时长的音频,得到多个录制音频;
[0017]将所述纯净音频与每个所述录制音频进行任意合成处理,得到多个所述带噪音频;
[0018]将多个所述带噪音频及所述纯净音频确定为所述音频样本。
[0019]根据本专利技术优选实施例,所述对所述带噪音频进行预处理,得到频谱信息包括:
[0020]获取预设移动窗函数;
[0021]基于所述预设移动窗函数对所述带噪音频进行傅里叶变换,得到频谱图;
[0022]获取预设处理时长,并计算所述音频时长与所述预设处理时长的比值;
[0023]根据所述预设处理时长对所述频谱图进行分段处理,得到所述频谱信息,所述频谱信息的数量与所述比值相同。
[0024]根据本专利技术优选实施例,所述频域信号处理网络包括门控神经网络、全连接网络及激活函数,所述门控神经网络包括重置门及更新门,所述基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征包括:
[0025]获取所述频谱信息的时序信息,所述时序信息包括第一时刻的第一频谱及第二时刻的第二频谱;
[0026]基于所述重置门的重置参数分析所述第一频谱及所述第二频谱,得到所述第二时刻的候选信息;
[0027]基于所述更新门中的更新参数、所述第一频谱及所述第二频谱计算所述第一频谱的信息量;
[0028]根据所述第一频谱、所述候选信息及所述信息量生成所述第二时刻的输出信息,并将所述输出信息确定为所述第一频谱,直至所述时序信息都参与训练,得到所述门控神经网络的第一网络输出;
[0029]根据所述全连接网络中的权值矩阵及偏置值对所述网络输出进行分析,得到第二网络输出;
[0030]基于所述激活函数处理所述第二网络输出,得到所述频谱掩膜特征。
[0031]根据本专利技术优选实施例,所述根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征包括:
[0032]计算所述频谱信息中的幅度信息,并从所述频谱信息中提取相位信息;
[0033]计算所述幅度信息、所述相位信息及所述频谱掩膜特征的乘积,得到预测频谱;
[0034]对所述预测频谱进行傅里叶逆变换处理,得到预测时频;
[0035]基于第一预设卷积层提取所述预测时频中的特征,得到所述时频特征。
[0036]根据本专利技术优选实施例,所述根据所述时频特征及所述时频掩膜特征生成预测音频包括:
[0037]计算所述时频特征及所述时频掩膜特征的乘积,得到增强特征;
[0038]基于第二预设卷积层对所述增强特征进行上采样处理,得到还原信号;
[0039]获取所述还原信号在每个时序上的初始信息;
[0040]若任一时序上的所述初始信息的数量有多个,计算所述任一时序上的多个所述初始信息的平均值,得到所述任一时序上的重叠信息;
[0041]根据所述初始信息及所述重叠信息生成预测信息;
[0042]转换所述预测信息,得到所述预测音频。
[0043]根据本专利技术优选实施例,所述基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型包括:
[0044]获取所述纯净音频的第一时域信息,并获取所述预测音频的第二时域信息;
[0045]根据下列公式计算所述预设学习器的损失值:
[0046][0047]其中,loss是指所述损失值,y
t
是指所述第一时域信息,是指所述第二时域信息;
[0048]根据所述损失值调整所述网络参数,直至所述损失值不再降低,得到所述降噪模型。
[0049]另一方面,本专利技术还提出一种音频降噪装置,所述音频降噪装置包括:
[0050]获取单元,用于获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
[0051]预处理单元,用于对所述带噪音频进行预处理,得到频谱信息;
[0052]处理单元,用于基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
[0053]所述获取单元,还用于根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
[0054]所述处理单元,还用于基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
[0055]生成单元,用于根据所述时频特征及所述时频掩膜特征生成预测音频;
[0056]调整单元,用于基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
[0057]所述获取单元,还用于获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0058]另一方面,本专利技术还提出一种电子设备,所述电子设备包括:
[0059]存储器,存储计算机可读指令;及
[0060]处理器,执行所述存储器中存储的计算机可读指令以实现所述音频降噪方法。
[0061]另一方面,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述音频降噪方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频降噪方法,其特征在于,所述音频降噪方法包括:获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;对所述带噪音频进行预处理,得到频谱信息;基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;根据所述时频特征及所述时频掩膜特征生成预测音频;基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。2.如权利要求1所述的音频降噪方法,其特征在于,所述获取音频样本包括:统计所述纯净音频的音频时长;从录制库中获取时长小于或者等于所述音频时长的音频,得到多个录制音频;将所述纯净音频与每个所述录制音频进行任意合成处理,得到多个所述带噪音频;将多个所述带噪音频及所述纯净音频确定为所述音频样本。3.如权利要求2所述的音频降噪方法,其特征在于,所述对所述带噪音频进行预处理,得到频谱信息包括:获取预设移动窗函数;基于所述预设移动窗函数对所述带噪音频进行傅里叶变换,得到频谱图;获取预设处理时长,并计算所述音频时长与所述预设处理时长的比值;根据所述预设处理时长对所述频谱图进行分段处理,得到所述频谱信息,所述频谱信息的数量与所述比值相同。4.如权利要求1所述的音频降噪方法,其特征在于,所述频域信号处理网络包括门控神经网络、全连接网络及激活函数,所述门控神经网络包括重置门及更新门,所述基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征包括:获取所述频谱信息的时序信息,所述时序信息包括第一时刻的第一频谱及第二时刻的第二频谱;基于所述重置门的重置参数分析所述第一频谱及所述第二频谱,得到所述第二时刻的候选信息;基于所述更新门中的更新参数、所述第一频谱及所述第二频谱计算所述第一频谱的信息量;根据所述第一频谱、所述候选信息及所述信息量生成所述第二时刻的输出信息,并将所述输出信息确定为所述第一频谱,直至所述时序信息都参与训练,得到所述门控神经网络的第一网络输出;根据所述全连接网络中的权值矩阵及偏置值对所述网络输出进行分析,得到第二网络输出;基于所述激活函数处理所述第二网络输出,得到所述频谱掩膜特征。5.如权利要求1所述的音频降噪方法,其特征在于,所述根据所述频谱信息及所述频谱
掩膜特征获取所述带噪音频的时频特征包括:计算所述频谱信息中的幅度信息,并从所述频谱...

【专利技术属性】
技术研发人员:张之勇王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1