语音降噪方法和装置制造方法及图纸

技术编号:30424812 阅读:14 留言:0更新日期:2021-10-24 16:55
本申请提供了一种语音降噪的方法和装置,该方法包括:获取M个第一语音频谱信号;对该M个第一语音频谱信号进行第一滤波降噪处理,得到M个第一降噪信号;根据该M个第一降噪信号中的每个第一降噪信号,确定第一掩码信息,该第一掩码信息用于表示该每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值,该第一目标频点包括预设的第一目标语音的频谱信号中包括的频点;根据该第一掩码信息,对该M个第一语音频谱信号进行第二滤波降噪处理,得到M个第二降噪信号,该M个第二降噪信号用于识别该第一语音中是否包含该第一目标语音。采用本申请提供的语音降噪方法和装置,能够提高语音信号的信噪比,从而提高语音识别的精确性。识别的精确性。识别的精确性。

【技术实现步骤摘要】
语音降噪方法和装置


[0001]本申请涉及音频处理
,并且更具体地,涉及音频处理
中的语音降噪方法和装置。

技术介绍

[0002]随着人工智能的发展,人机交互在移动设备或者穿戴设备(如平板、手机)上使用已经相当广泛,越来越多的人使用语音交互。语音唤醒和语音识别技术是实现语音交互的关键技术。
[0003]当前,语音唤醒和语音识别技术在高信噪比下已经有非常好的性能,但是在强嘈杂环境下,比如电视噪声和音乐噪声等,唤醒率和识别率较低,语音交互体验受到严重影响。
[0004]因此,如何提高语音信号的信噪比,从而提高语音交互体验成为亟待解决的问题。

技术实现思路

[0005]本申请提供一种语音降噪方法和装置,能够提高语音信号的信噪比,从而提高语音识别的精确性。
[0006]第一方面,本申请实施例提供一种语音降噪方法,该方法包括:获取M个第一语音频谱信号,所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的,M和N均为大于1的整数,且N大于或等于M;对所述M个第一语音频谱信号进行第一滤波降噪处理,得到M个第一降噪信号;根据所述M个第一降噪信号中的每个第一降噪信号,确定第一掩码信息,所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值,所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点;根据所述第一掩码信息,对所述M个第一语音频谱信号进行第二滤波降噪处理,得到M个第二降噪信号,所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。
[0007]本申请实施例采用平行的滤波降噪结构,第一次滤波降噪能够初步增强该M个第一降噪信号中包含的该第一目标语音,并通过该M个第一降噪信号得到频点级的第一掩码信息。第二次滤波降噪通过频点级的第一掩码信息进行控制,一方面能够实现嘈杂环境下相干噪声的精确抑制,从而增强该M个第二降噪信号中包含的第一目标语音,以提高第一目标语音的识别率。
[0008]需要说明的是,所述信号采集装置可以包括麦克风阵列,所述麦克风阵列中包括所述 N个麦克风。
[0009]可选地,所述N个麦克风可以采用多种阵型布局,例如,该N个麦克风可以呈“直线”阵型布局,或该N个麦克风可以呈“三角形”阵型布局,或该N个麦克风可以呈“多边形”阵型布局,或该N个麦克风可以呈不规则阵型布局,本申请实施例对此不作限定。
[0010]需要说明的是,无论麦克风阵列中的N个麦克风采用什么样的阵型布局,一旦该麦
克风阵列确定,那么,该麦克风阵列中包括的麦克风数量、每个麦克风的位置、任意两个麦克风之间的距离等与该麦克风阵列相关的参数均可以确定。
[0011]可选地,所述语音降噪装置可以通过多种方式获取所述M个第一语音频谱信号,本申请实施例对此不作限定。
[0012]在第一种可能的实现方式中,所述语音降噪装置可以接收信号采集装置采集的N个第二语音信号;对所述N个第二语音信号中的每个第二语音信号进行频域转换,得到N个第二语音频谱信号;对所N个第二语音频谱信号进行第一处理,得到所述M个第一语音频谱信号,其中,所述第一处理可以包括波达方向(direction of arrival,DOA)处理或波束成形(beam forming,BF)处理。
[0013]需要说明的是,在本申请实施例中,对第二语音信号进行频域转换,可以理解为对所述第二语音信号进行频点数为T的快速傅氏变换(fast Fourier transformation,FFT),得到所述第二语音频谱信号,T为大于1的整数,所述第二语音频谱信号用于表示所述T个频点和所述T个频点中每个频点处的幅值之间的映射关系。
[0014]可选地,所述第一处理包括DOA处理或BF处理,可以理解为:所述第一处理包括所述DOA处理,或所述第一处理包括所述BF处理,或所述第一处理包括所述DOA处理和所述BF处理。
[0015]在第二种可能的实现方式中,所述语音降噪装置可以接收所述信号采集装置采集的N 个第一语音信号;对所述N个第一语音信号进行频域转换,得到所述M个第一语音频谱信号。
[0016]需要说明的是,在本申请实施例中,对第一语音信号进行频域转换,可以理解为对所述第一语音信号进行频点数为T的FFT,得到所述第一语音频谱信号,该第一语音频谱信号用于表示所述T个频点和所述T个频点中每个频点处的幅值之间的映射关系。
[0017]可选地,当N>M时所述语音降噪装置可以通过上述第一种可能的实现方式获取所述 M个第一语音频谱信号;当N=M(例如:N和M均取值为2、3)时,所述语音降噪装置可以通过上述第二种可能的实现方式获取所述M个第一语音频谱信号。
[0018]例如:N取值为4、5
……
,M取值为2时,所述语音降噪装置可以通过上述第一种可能的实现方式获取所述M个第一语音频谱信号。
[0019]又例如:N和M均取值为2或3时,所述语音降噪装置可以通过上述第二种可能的实现方式获取所述M个第一语音频谱信号。
[0020]需要说明的是,所述语音降噪装置可以包括第一滤波器,本申请实施例中所述的第一滤波降噪处理可以理解为通过所述第一滤波器进行的滤波降噪处理。
[0021]在一种可能的实现方式中,所述第一滤波器可以为第一自适应滤波器,对应的,所述第一滤波降噪处理可以为第一自适应滤波降噪处理。
[0022]需要说明的是,自适应滤波器是指根据环境的改变,使用自适应算法来改变滤波器的参数和结构的滤波器。一般情况下,不改变自适应滤波器的结构。而自适应滤波器的系数是由自适应算法更新的时变系数。即其系数自动连续地适应于给定信号,以获得期望响应。自适应滤波器的最重要的特征就在于它能够在未知环境中有效工作,并能够跟踪输入信号的时变特征。
[0023]可选地,所述语音降噪装置可以采用多种自适应算法对所述M个第一语音频谱信
号进行第一滤波降噪处理,本申请实施例对此不作限定。
[0024]在第一种可能的实现方式中,所述语音降噪装置可以采用实时自适应算法对所述M 个第一语音频谱信号进行第一滤波降噪处理。
[0025]例如:当N>M时,采用实时自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理。
[0026]需要说明的是,在麦克风数量较多的情况下,对麦克风阵列采集得到的N个第二语音频谱信号进行通过第一处理得到M个第一语音频谱信号,能够区分出M个第一语音频谱信号中的目标波束和干扰波束,且对目标波束中的干扰信号以及干扰波束中的目标信号都具有一定的抑制作用。因此,根据干扰波束对目标波束进行实时滤波,一方面能够滤除目标波束中的干扰信号,另一方面对目标波束的损伤不大。
[0027]在第二种可能的实现方式中,所述语音降噪装置可以采用延时自适应算法对所述M 个第一语音频谱信号进行第一滤波降噪处理。
[0028]例如:当N=M时,采用延迟自适应算法对所述M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪方法,其特征在于,包括:获取M个第一语音频谱信号,所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的,M和N均为大于1的整数,且N大于或等于M;对所述M个第一语音频谱信号进行第一滤波降噪处理,得到M个第一降噪信号;根据所述M个第一降噪信号中的每个第一降噪信号,确定第一掩码信息,所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值,所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点;根据所述第一掩码信息,对所述M个第一语音频谱信号进行第二滤波降噪处理,得到M个第二降噪信号,所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。2.根据权利要求1所述的方法,其特征在于,所述根据所述M个第一降噪信号中的每个第一降噪信号,确定第一掩码信息,包括:将所述M个第一降噪信号中的每个第一降噪信号的频谱特征信息输入第一神经网络模型,得到所述第一掩码信息,所述每个第一降噪信号的频谱特征信息用于表示所述每个第一降噪信号的频谱分布特征,其中,所述第一神经网络模型是根据第一训练数据样本集训练得到的,所述第一训练数据样本集中包括至少一个第一样本数据组,所述至少一个第一样本数据组中的每个第一样本数据组包括第一样本语音频谱信号的频谱特征信息和与所述第一样本语音频谱信号对应的第二样本语音频谱信号的频谱特征信息,所述第一样本语音频谱信号包括所述第一目标语音,所述第二样本语音频谱信号包括所述第一样本语音频谱信号和噪声。3.根据权利要求1或2所述的方法,其特征在于,当M大于N时,所述获取M个第一语音频谱信号,包括:接收所述N个麦克风对所述第一语音进行采集得到的N个第二语音信号,所述N个麦克风与所述N个第二语音信号一一对应;对所述N个第二语音信号进行频域转换,得到N个第二语音频谱信号;对所述N个第二语音频谱信号进行第一处理,得到所述M个第一语音频谱信号,其中,所述第一处理包括波达方向处理或波束成形处理。4.根据权利要求1或2所述的方法,其特征在于,当M等于N时,所述获取M个第一语音频谱信号,包括:接收所述N个麦克风对所述第一语音进行采集得到的N个第一语音信号,所述N个麦克风与所述N个第一语音信号一一对应;对所述N个第一语音信号进行频域转换,得到所述M个第一语音频谱信号。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:根据所述M个第二降噪信号对所述第一语音进行语音识别,以确定所述第一语音中是否包含所述第一目标语音。6.根据权利要求5所述的方法,其特征在于,当确定所述第一语音中包含所述第一目标语音时,所述方法还包括:获取M个第三语音频谱信号,所述M个第三语音频谱信号是通过所述N个麦克风对所述用户的第二语音进行采集得到的;
根据所述第二滤波降噪处理所使用的滤波系数,对所述M个第三语音频谱信号进行第三滤波降噪处理,得到M个第三降噪信号;根据M个第二目标降噪信号,对所述M个第三降噪信号进行降噪,得到第四降噪信号,所述第四降噪信号用于识别所述第二语音中是否包含预设的第二目标语音,所述M个第二目标降噪信号为所述M个第二降噪信号中与所述第一目标语音对应的部分。7.根据权利要求6所述的方法,其特征在于,所述根据M个第二目标降噪信号,对所述M个第三降噪信号进行降噪,得到第四降噪信号,包括:从所述M个第二目标降噪信号中确定出第二参考降噪信号,所述第二参考降噪信号为所述M个第二目标降噪信号中识别出所述第一目标语音的概率最大的第二目标降噪信号;根据所述每个第二降噪信号与所述第二参考降噪信号之间的相似度,确定所述每个第二降噪信号的加权值;根据所述M个第二降噪信号中每个第二降噪信号的加权值,对所述M个第二降噪信号进行加权,得到第一加权降噪信号;根据所述M个第二降噪信号中每个第二降噪信号的加权值,对所述M个第三降噪信号进行加权,得到第二加权降噪信号;根据所述第一加权降噪信号,对所述第二加权降噪信号进行降噪,得到所述第四降噪信号。8.根据权利要求7所述的方法,其特征在于,所述根据所述第一加权降噪信号,对所述第二加权降噪信号进行降噪,得到所述第四降噪信号,包括:确定所述第一加权降噪信号的特征信息,所述特征信息包括所述用户的声纹特征或位置特征;根据所述第一加权降噪信号的特征信息,对所述第二加权降噪信号进行降噪,得到所述第四降噪信号。9.根据权利要求6至8中任一项所述的方法,其特征在于,在所述获取M个第三语音频谱信号之前,所述方法还包括:确定所述M个第二目标降噪信号中每个第二目标降噪信号的掩码值,所述每个第二目标降噪信号的掩码值为所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值之和,且所述每个第二目标降噪信号的掩码值越大,所述每个第二目标降噪信号中识别出所述第一目标语音的概率越大;当所述M个第二目标降噪信号中的至少一个第二目标降噪信号的掩码值大于或等于预设的掩码值阈值时,确定所述M个第二目标降噪信号中包含所述第一目标语音。10.根据权利要求6至9中任一项所述的方法,其特征在于,所述第一目标语音为唤醒词,所述唤醒词用于唤醒终端,所述第二目标语音为第一控制指令,所述第一控制指令用于控制所述终端执行与所述第一控制指令对应的操作;或,所述第一目标语音为第二控制指令,所述第二控制指令用于控制所述终端执行与所述第二控制指令对应的操作。11.一种语音降噪装置,其特征在于,包括:获取单元,用于获取M个第一语音频谱信号,所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的,M和N均为大于1的整数,且N大于或等于M;
第一滤波单元,用于对所述M个第一语音频谱信号进行第一滤波降噪处理,得到M个第一降噪信号;处理单元,用于根据所述M个第一降噪信...

【专利技术属性】
技术研发人员:廖猛范泛陈伟宾吴超
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1