一种基于双麦克风的语音活动检测与环境噪声消除方法技术

技术编号:39801909 阅读:8 留言:0更新日期:2023-12-22 02:32
本发明专利技术公开了一种基于双麦克风的语音活动检测与环境噪声消除方法,属于

【技术实现步骤摘要】
一种基于双麦克风的语音活动检测与环境噪声消除方法


[0001]本专利技术属于
VOIP(
代表“IP
语音”或“互联网语音协议”)
终端语音信号处理相关领域,特别是一种基于双麦克风的语音活动检测与环境噪声消除方法


技术介绍

[0002]在实际使用
VOIP
话机进行免提或者视频会议通话的应用场景中,实时语音通信质量会受到嘈杂的环境噪音影响

为了提高语音质量,需要有效地检测和消除环境噪音

[0003]现有技术采用单麦克风,虽然布置较为容易,但是当非平稳噪声出现时,无论是语音活动的检测正确率还是降噪性能都会大幅度下降
[1]。
理论上,使用多个麦克风利用声场的空间特性是可以提高系统的降噪能力的

[0004]波束形成
[2]是利用多个麦克风组成阵列,进行空间滤波增强语音最简单有效的一种方法

波束形成降噪算法假设每一个麦克风所拾取的噪声成分是互不相关的,然而在实际应用中,这样的假设并不充分;因此,波束形成算法对噪声的抑制效果不够明显

通常还要使用后置滤波算法进一步增强语音,然而后置滤波算法的缺点也十分明显,就是对非平稳噪声的处理结果非常有限,而且当瞬态干扰出现时,后置滤波处理还会降低语音通信的质量

而且麦克风的数量也会影响波束形成降噪算法的性能,过多的麦克风数量大大增加了系统的复杂度

[0005]另外一种比较常见的利用双麦进行降噪的方法是基于能量差的方法,即
PLD(Power Level Difference)
算法
[3]。
尽管基于能量差的方法有很多优点,例如对双麦之间的延时估计准确度不是很倚赖,而且能较为不错的处理非平稳噪声,但是在实践中,我们发现基于能量差估计维纳滤波器进行噪声消减常常会引入音乐噪声,对语音质量的影响会达到令人难以接受的程度

[0006]近些年来,随着深度学习的兴起,基于神经网络的降噪算法越来越多的被应用到实际系统中

但神经网络算法是数据驱动的,在复杂环境低信噪比的情况下,常常会出现伤人声的现象,而且神经网络训练成本高,计算量比较大,在终端设备上部署常常需要
npu
单元,大大增加了硬件的成本

[0007]参考文献
[0008][1]Schnitta B.Speech Enhancement:Theory and Practice,Second Edition[J].Noise

News International,2015(23

1).
[0009][2]Brandstein M S,Ward D B.Microphone Arrays:Signal Processing Techniques and Applications[M].2001.
[0010][3]Yousefian N,Rahmani M,Akbari A.Power level difference as a criterion for speech enhancement[C]//IEEE International Conference on Acoustics.IEEE,2009:4653

4656.DOI:10.1109/ICASSP.2009.4960668.

技术实现思路

[0011]针对上述问题,本专利技术提供了一种基于双麦克风的语音活动检测与环境噪声消除方法,通过合理布置主麦和环境噪声采集麦,利用能量比进行语音活动检测,进而控制自适应滤波进行环境噪声消除,该方法对芯片计算能力要求较低,在满足一定性能的前提下,大大降低了硬件成本

[0012]所述基于双麦克风的语音活动检测与环境噪声消除方法,具体步骤如下:
[0013]步骤一

针对
VoIP
话机,在话机前端和后方分别布置两个全向麦克风,当用户使用话机时,采集两个麦克风的信号;
[0014]布置于话机前端的为主麦克风,布置于话机后端的为辅助麦克风,两个麦克风之间相距
5cm

[0015]采集到的信号表示如下:
[0016]y
i
(m)

s
i
(m)+n
i
(m),i

1,2
[0017]其中
y1(m)
代表主麦克风采集到的信号;
y2(m)
代表辅助麦克风采集到的信号;
[0018]s
i
(m)
代表用户使用话机时第
i
个麦克风采集的声音信号,
n
i
(m)
代表第
i
个麦克风采集的环境噪声;
[0019]步骤二

分别对两路麦克风信号加窗,做快速傅里叶变换,计算各自的功率谱;
[0020]则麦克风信号的功率谱密度计算如下:
[0021][0022]λ
为遗忘因子,
Y
i
(n,k)
为麦克风信号的频域值,
P
代表功率谱密度,代表当前帧功率谱密度,代表上一帧功率谱密度

[0023]Y
i
(n,k)
为麦克风信号进行短时傅里叶变换得到的频域值;表示为:
[0024]Y
i
(n,k)

S
i
(n,k)+N
i
(n,k),i

1,2
[0025]其中
n
为帧索引,
k
为频率索引,
S
i
(n,k),N
i
(n,k)
分别为对
s
i
(m)

n
i
(m)
进行傅里叶变换后频域值;
[0026]步骤三

分别对两路麦克风的功率谱求对数并相减,判断结果是否大于经验阈值
ε
;如果是,则判断有语音活动,进入步骤四;否则,判断无讲话活动,进入步骤五

[0027]表达式如下:
[0028][0029]步骤四

将辅助麦克风的采集信号作为参考信号,对主麦克风采集的信号使用自适应滤波器进行噪声消除,得到增强后的信号,进入步骤六;
[0030]公式如下:
[0031]s
E

y1(m)

h(m)*y2(m)
[0032]其中
h(m)
代表自适应滤波器,
*
代表卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于双麦克风的语音活动检测与环境噪声消除方法,其特征在于,具体步骤如下:步骤一

针对
VoIP
话机,在话机前端和后方分别布置两个全向麦克风,当用户使用话机时,采集两个麦克风的信号;采集到的信号表示如下:
y
i
(m)

s
i
(m)+n
i
(m),i

1,2
其中
y1(m)
代表主麦克风采集到的信号;
y2(m)
代表辅助麦克风采集到的信号;
s
i
(m)
代表用户使用话机时第
i
个麦克风采集的声音信号,
n
i
(m)
代表第
i
个麦克风采集的环境噪声;步骤二

分别对两路麦克风信号加窗,做快速傅里叶变换,计算各自的功率谱;则麦克风信号的功率谱密度计算如下:
P
Yi
(n,k)

λ
P
Yi
(n

1,k)+(1

λ
)|Y
i
(n,k)2|i

1,2
λ
为遗忘因子,
Y
i
(n,k)
为麦克风信号的频域值,
P
代表功率谱密度,
P
Yi
(n,k)
代表当前帧功率谱密度,
P
Yi
(n

1,k)
代表上一帧功率谱密度;步骤三

分别对两路麦克风的功率谱求对数并相减,判断结果是否大于经验阈值
ε
;如果是,则判断有语音活动,进入步骤四;否则,判断无讲话活动,进入步骤五;表达式如下...

【专利技术属性】
技术研发人员:刘建兵冯波李鸿鹏高峰商易刘永辉朱海波姜瑞
申请(专利权)人:深圳方位智联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1