一种针对声纹鉴定任务的语音降噪方法及装置制造方法及图纸

技术编号:37795621 阅读:31 留言:0更新日期:2023-06-09 09:25
本公开提供了一种针对声纹鉴定任务的语音降噪方法及装置,通过获取样本含噪语音与样本净语音;确定样本含噪语音的说话人对应的第一身份认证矢量,以及样本净语音的说话人对应的第二身份认证矢量;针对样本含噪语音与样本净语音中的每一帧,确定该帧样本含噪语音对应的第一频域向量,以及该帧样本净语音对应的第二频域向量;根据第一身份认证矢量、第二身份认证矢量、第一频域向量以及第二频域向量训练预设的语音降噪模型;获取待降噪语音,将待降噪语音输入至训练好的语音降噪模型中,确定待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。有效提升声纹鉴定任务性能的效果。有效提升声纹鉴定任务性能的效果。

【技术实现步骤摘要】
一种针对声纹鉴定任务的语音降噪方法及装置


[0001]本公开涉及语音处理
,具体而言,涉及一种针对声纹鉴定任务的语音降噪方法及装置。

技术介绍

[0002]在声纹鉴定任务中,鉴定的性能会受到噪声的影响。现在有主流做法是,训练神经网络用于降噪,然后将降噪后的语音用于做声纹鉴定,包括降噪神经网络的训练和应用,以及身份特征的抽取和声纹鉴定。用于降噪的神经网络,大多以增加信号的信噪比(Signal

to

Noise Ratio,SNR) 为训练目标。SNR 指的是信号与噪声的比值,通常用分贝(dB)表示。在语音处理中,噪声可能来自于不同的来源,例如背景噪声、麦克风噪声,通信噪声等。
[0003]但是在声纹鉴定任务中,相比于提升语音质量,获得准确的内容信息,需要更加关注语音所包含的身份信息。包括说话人的声音特征、语调、音量、发音等方面的信息;而另一方面,即使是同一个人的声音,在不同传输条件下,不同背景噪音条件下,也有很多差异。因此,传统的降噪技术虽然可以提升语音的清晰度,但是在降噪过程中也会丢失一些身本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对声纹鉴定任务的语音降噪方法,其特征在于,包括:获取样本含噪语音与样本净语音;确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。2.根据权利要求1所述的方法,其特征在于,根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型,具体包括:以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数;将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数;根据所述目标模型参数更新所述语音降噪模型。3.根据权利要求1所述的方法,其特征在于,所述针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量,具体包括:将所述样本含噪语音进行分帧处理,针对所述样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第一频域向量;将所述样本净语音进行分帧处理,针对所述样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第二频域向量。4.根据权利要求1所述的方法,其特征在于,所述获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音,具体包括:针对所述待降噪语音进行分帧处理,将所述待降噪语音中的每一帧输入至训练好的所述语音降噪模型中,确定每帧所述待降噪语音对应的降噪频谱;针对每个所述降噪频谱进行傅里叶逆变换,确定该降噪频谱对应的降噪语音片段;针对所述降噪语音片段进行加窗处理后,拼接形成所述目标降噪语音。5.根据权利要求2所述的方法,其特征在于,基于以下公式构建所述损失函数:其中,代表所述损失函数;代表所述语音降噪模型...

【专利技术属性】
技术研发人员:张兆峰邓菁
申请(专利权)人:北京远鉴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1