当前位置: 首页 > 专利查询>陈卓专利>正文

语音增强方法及装置制造方法及图纸

技术编号:11406241 阅读:80 留言:0更新日期:2015-05-03 23:29
本发明专利技术公开了一种语音增强方法及装置,该方法包括步骤:从多个不同的空间位置采集多路带噪语音信号,根据采集到的带噪语音信号得到初步增强语音信号和噪声参考信号,再将初步增强语音信号和噪声参考信号进行特征值的对比,以对比的比值为依据,对初步增强语音信号进行掩蔽处理,并得到最终的增强语音信号,用于输出。本发明专利技术实现了语音信号的360°的全面覆盖,并且信噪比相比于传统的噪声抑制方法(如广义旁瓣对消)提升了5-10dB,在多噪声环境下,能更加有效的对噪声掩蔽,对目标声源的语音信号进行增强,保证较高的语音质量。

【技术实现步骤摘要】
语音增强方法及装置[
]本专利技术涉及到语音增强领域,尤其涉及一种语音增强方法及装置。[
技术介绍
]用户使用听觉设备需要面对各种各样复杂的环境,目标语音随时在发生变化,如有时是人声,有时候是音乐声,而且目标语音的强度,方位等,都随时在变化。同时,不可避免受到噪声的干扰。不同场景中噪音种类千差万别。可能是稳态噪声,也可能是动态噪声,可能是冲击噪声,也可能是风噪声。噪声可能是单频音,也可能是窄带噪声,甚至是宽带噪声。而且,不同的用户在不同的场景中对于目标语音的要求也是有差异的,举例说,在相对安静的环境中,用户需要更加清晰的语音。而在相对嘈杂的环境中,则需要提高语音的可懂度。[
技术实现思路
]本专利技术提供了一种语音增强方法,以及和该方法对应的语音增强装置;用于在多噪声环境下,能更加有效的对噪声掩蔽,对目标声源的语音信号进行增强,从而得到去噪的语音,保证较高的语音质量。本专利技术的技术方案是:语音增强方法,包括:步骤一、从多个不同的空间位置采集多路带噪语音信号;步骤二、对所述带噪语音信号进行初步语音增强,以获得初步增强语音信号,然后对所述初步增强语音信号进行分频和加窗逐帧处理,将其分割为N个语音T-F单元,并提取每个语音T-F单元中的特征值;同时,对所述带噪语音信号进行分频和加窗逐帧处理,以得到N个噪声T-F单元,提取每个噪声T-F单元的特征值并将其和设定值进行对比,根据比值确定各个噪声T-F单元对应的掩蔽值,然后进行相应的掩蔽处理,以获得噪声参考信号;所述语音T-F单元和噪声T-F单元具有一一对应关系;步骤三、将每个语音T-F单元的特征值和其对应的经掩蔽后的噪声T-F单元的特征值进行比较,并以比值为依据得到每个语音T-F语音单元相对应的掩蔽值,然后根据得到的掩蔽值进行相应的掩蔽处理;步骤四、对经过掩蔽处理后的N个语音T-F单元进行合成,以获得最终的增强语音信号。以及和上述方法对应的语音增强装置,包括:语音采集模块:用于从多个不同的空间位置采集多路带噪语音信号;语音增强模块:用于对所述语音采集模块采集到的带噪语音信号进行初步语音增强,获得初步增强语音信号;第一人耳滤波模块:用于对所述语音增强模块中输出的初步增强语音信号进行分频和加窗逐帧处理,形成N个语音T-F单元;第一特征提取模块:用于提取每个语音T-F单元的特质值;噪声参考模块:包括第二人耳滤波模块、第二特征提取模块、第二特征比较模块及第二掩蔽模块;所述第二人耳滤波模块用于对带噪语音信号进行分频和加窗逐帧处理,以形成N个噪声T-F单元,所述第二特征提取模块用于提取每个噪声T-F单元的特征值,所述第二特征比较模块用于将每个噪声T-F单元的特征值和设定值进行对比,并根据比值确定每个噪声T-F单元对应的掩蔽值,所述第二掩蔽模块用于对各噪声T-F单元进行掩蔽处理,以获得噪声参考信号;第一特征比较模块:对语音T-F单元的特征值和所述噪声参考信号中的相应的噪声T-F单元的特征值进行比较,根据比值确定每个语音T-F单元对应的掩蔽值;第一掩蔽模块:根据所述第一特征比较模块得到的掩蔽值,对相应的语音T-F单元进行掩蔽处理;语音信号重建模块:对经过第一掩蔽模块处理后的N个语音T-F单元进行合并,形成增强后的语音信号用于输出。本专利技术实现了语音信号的360°的全面覆盖,并且信噪比相比于传统的噪声抑制方法(如广义旁瓣对消)提升了5-10dB,在多噪声环境下,能更加有效的对噪声掩蔽,对目标声源的语音信号进行增强,保证较高的语音质量。[附图说明]图1是本专利技术的语音增强方法在一实施例中的流程图;图2是现有技术的阻塞矩阵的方向性图;图3是现有技术的阻塞矩阵的方向性图;图4是本专利技术的语音增强装置在一实施例中的结构框图。[具体实施方式]为了使本专利技术更加清晰明白,下面结合附图对本专利技术的具体实施例做一详细的阐述。实施例1如图1所示,语音增强方法,方法包括:S100、从不同的空间位置采集两路带噪语音信号;当然,也可以是两路以上;S200、所述S200步骤用于对步骤S100中得到的带噪语音信号进行处理,具体的处理步骤包括并行的S210和S220,它们均是以S100中的带噪语音信号为基础,其中,S210是从带噪语音信号中分离得到初步增强语音信号,并做进一步的处理,S220是从带噪语音信号中分离出噪声,得到噪声参考信号;为便于描述,S210步骤进一步细化为S211、S212和S213,在S220步骤进一步细化为S221、S222、S223和S224,具体如下:S210:S211:对步骤S100中得到的带噪语音信号进行初步语音增强,以获得初步增强语音信号;S212:对步骤S211中得到的初步增强语音信号进行分频和加窗逐帧处理,将其分割为N个语音T-F单元;S213:从步骤S212中得到的N个语音T-F单元中分别提取特征值;S220:S221:对步骤S100中得到的带噪语音信号进行分频和加窗逐帧处理,以得到N个噪声T-F单元;S222:从步骤S221中得到的N个噪声T-F单元中分别提取特征值;S223:将步骤S222中得到的每个噪声T-F单元的特征值和设定值进行对比,根据比值确定每个个噪声T-F单元相应的掩蔽值;需要说明的是,所述设定值是根据目标声源和各个采集点之间的相对位置关系来确定;S224:以各个噪声T-F单元所对应的掩蔽值为加权参数,对各噪声T-F单元进行相应的掩蔽处理,即抑制目标声源的语音信号,以获得噪声参考信号;举例说明,假设某个噪声T-F单元的特征值和设定值的比值为x,而x所对应的掩蔽值为y,则得出该噪声T-F单元对应的掩蔽值为y,然后根据该y值,对该噪声T-F单元进行掩蔽处理;所述语音T-F单元和噪声T-F单元具有一一对应关系;S300、将各个语音T-F单元的特征值和经掩蔽后的噪声T-F单元的特征值进行比较,并以比值为依据得到各个语音T-F语音单元相对应的掩蔽值,然后根据得到的掩蔽值进行相应的掩蔽处理;进行对比的语音T-F单元和噪声T-F单元具有一一对应关系;S400、对经过掩蔽处理后的N个语音T-F单元进行合成,以获得最终的增强语音信号。具体实施时,所述步骤S200中所述的特征值包括IID、ITD中的至少一种,下面对IID和ITD详细阐述:ITD,即双耳延时差(interauraltimedifferences),指的是到达两个采集点的语音在延时上存在的差异,当采集到的为带噪语音信号时,只要不是相对于麦克在同一个方位,那么目标声源的语音信号和周围的环境噪声到达两个采集点的延时差异则不相同。若只有目标声源的语音信号时,从两个采集点采集到的延时差由目标声源的语音信号造成,同样,若只有噪声时,从两个采集点采集到的延时差由噪声造成。若信号为目标声源的语音信号和周围环境噪声混杂时,那么从两个采集点采集到的延时差主要体现较强的那一路信号的延时差。ITD的计算公式如下:其中li(j-k)代表从第一个采集点采集到的带噪语音信号,ri(j-k-τ)代表从二个采集点采集到的带噪语音信号延时τ。和分别代表从第一个采集点和第二个采集点采集到的信号的均值。分母项是为了对该T-F单元的ITD值做归一化。对不同的延时τ计算完毕以后,取最大的互相关函数值做为该帧信号的ITD值。若目标声源和各个采集点之间的相对位置固定,本文档来自技高网...

【技术保护点】
语音增强方法,其特征在于,包括: 步骤一、从多个不同的空间位置采集多路带噪语音信号; 步骤二、对所述带噪语音信号进行初步语音增强,以获得初步增强语音信号,然后对所述初步增强语音信号进行分频和加窗逐帧处理,将其分割为N个语音T‑F单元,并提取每个语音T‑F单元中的特征值; 同时,对所述带噪语音信号进行分频和加窗逐帧处理,以得到N个噪声T‑F单元,提取每个噪声T‑F单元的特征值并将其和设定值进行对比,根据比值确定各个噪声T‑F单元对应的掩蔽值,然后进行相应的掩蔽处理,以获得噪声参考信号; 所述语音T‑F单元和噪声T‑F单元具有一一对应关系; 步骤三、将每个语音T‑F单元的特征值和其对应的经掩蔽后的噪声T‑F单元的特征值进行比较,并以比值为依据得到每个语音T‑F语音单元相对应的掩蔽值,然后根据得到的掩蔽值进行相应的掩蔽处理; 步骤四、对经过掩蔽处理后的N个语音T‑F单元进行合成,以获得最终的增强语音信号。

【技术特征摘要】
1.语音增强方法,其特征在于,包括:步骤一、从多个不同的空间位置采集多路带噪语音信号;步骤二、对所述带噪语音信号进行初步语音增强,以获得初步增强语音信号,然后对所述初步增强语音信号进行分频和加窗逐帧处理,将其分割为N个语音T-F单元,并提取每个语音T-F单元中的特征值;同时,对所述带噪语音信号进行分频和加窗逐帧处理,以得到N个噪声T-F单元,提取每个噪声T-F单元的特征值并将其和设定值进行对比,根据比值确定各个噪声T-F单元对应的掩蔽值,然后进行相应的掩蔽处理,以获得噪声参考信号;所述语音T-F单元和噪声T-F单元具有一一对应关系;步骤三、将每个语音T-F单元的特征值和其对应的经掩蔽后的噪声T-F单元的特征值进行比较,并以比值为依据得到每个语音T-F语音单元相对应的掩蔽值,然后根据得到的掩蔽值进行相应的掩蔽处理;步骤四、对经过掩蔽处理后的N个语音T-F单元进行合成,以获得最终的增强语音信号。2.根据权利要求1所述的语音增强方法,其特征在于,所述步骤二中所述的特征值包括IID和/或ITD。3.根据权利要求2所述的语音增强方法,其特征在于,处于高频段的噪声/语音T-F单元提取IID,处于低频段的噪声/语音T-F单元提取ITD,所述的高频段和低频段的分界线为1.5KHz。4.根据权利要求2或3所述的语音增强方法,其特征在于,所述IID和掩蔽值的关系为:Maskgram(i,j)=1,ifIID>2Maskgram(i,j)=0.5,if1.2<IID<2Maskgram(i,j)=0.3,if1<IID<1.2Maskgram(i,j)=0.01,else其中,Maskgram(i,j)表示第i个时帧、第j个频带的噪声/语音T-F单元所对应的掩蔽值。5.根据权利要求1、2或3所述的语音增强方法,其特征在于,在所述步骤一中还包括追踪定位目标声源的步骤。6.语音增强装置,其特征在于,包括:语音采集模块:用于从多个不同的空间位置采集多路带噪语音信号;语音增强模块:用于对所述语音采集模块采集到的带噪语...

【专利技术属性】
技术研发人员:陈卓席金苗
申请(专利权)人:陈卓席金苗
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1