一种基于麦克风阵列结合唤醒词进行的语音降噪方法技术

技术编号:33018507 阅读:29 留言:0更新日期:2022-04-15 08:50
本发明专利技术提供一种基于麦克风阵列结合唤醒词进行的语音降噪方法,在麦克风阵列接收到的多路音频数据进行完回声消除,DOA以及波束形成的基础上,添加了后置降噪操作,结合语音唤醒词位置标记进行噪声估计,在语音唤醒后,进一步的对期望语音以外的人声噪声以及音乐噪声进行降噪处理,从而提升整个基于麦克风阵列的语音前端处理能力。在该后置降噪处理中,根据唤醒词唤醒情况分为两个阶段,分别是未唤醒阶段;以及,唤醒后并等待语音识别结果返回或者在唤醒后等待一定时间,这个时间可以是人们说完待识别语句的平均时长。在两个阶段使用不同的噪声估计,并在降噪中使用掩蔽效应,达到在唤醒后进行识别阶段对人声噪声以及音乐噪声的抑制。声的抑制。声的抑制。

【技术实现步骤摘要】
一种基于麦克风阵列结合唤醒词进行的语音降噪方法


[0001]本专利技术涉及音频处理
,特别涉及一种基于麦克风阵列结合唤醒词进行的语音降噪方法。

技术介绍

[0002]随着人工智能和语音识别的不断发展,语音唤醒和识别越来越多的出现在我们的生活中,比如说智能音箱,车载语音系统等,应用的场景越来越多样化。在应用过程中周围噪声以及设备本身发出的声音是不可避免的,这些都会影响到语音识别的效果,从而需要对提供给语音识别系统的语音进行处理,即语音前端处理。
[0003]语音前端处理主要采用麦克风阵列拾取语音并对拾取到的多路语音信号进行回声消除,声源定位,波束形成,降噪等一系列处理,达到对期望方向的语音信号进行增强,同时对非期望方向的噪声的抑制,从而提升语音识别的效果。
[0004]目前基于麦克风阵列语音前端处理中的降噪和噪声估计主要针对稳态的环境噪声,比如说厨房噪声,包括微波炉,抽油烟机的声音等,以及白噪声等噪声。噪声估计主要使用VAD进行语音检测,如果没有检测到语音,则认为是噪声,进行相关的降噪处理,被抑制的是不含有人声的噪声。...

【技术保护点】

【技术特征摘要】
1.一种基于麦克风阵列结合唤醒词进行的语音降噪方法,其特征在于,包含以下步骤:S1.将经过回声消除(AEC),波达方向(DOA)以及波束形成后输出的一路音频数据进行分帧加窗操作;S2.协方差计算:S2.1,计算整帧数据的循环卷积;S2.2,取卷积结果中的后L个数据,构成托普利兹矩阵,该矩阵为数据的协方差,其中,L为子帧数据的长度;S3.初始值的确定:分为未唤醒阶段和唤醒阶段两个阶段,其中,分别确定未唤醒阶段的噪声协方差和噪声功率谱密度,以及唤醒阶段的噪声协方差和噪声功率谱密度中的初始值;S4.判断是否处于唤醒词的唤醒阶段,S4.1.若是处于未唤醒阶段,则转向S4.1.1操作;S4.1.1.对数据进行语音活动检测,若判断是噪声,则更新噪声协方差矩阵,更新噪声功率谱密度;若判断是音频,则不对噪声的协方差矩阵以及功率谱密度进行更新,维持前面噪声的音频;S4.1.2.在未唤醒阶段,将该阶段的音频数据作为唤醒阶段的噪声,更新该阶段的噪声协方差以及噪声功率谱密度,将噪声协方差以及功率率谱密度保存,该部分需要开辟一个大于唤醒词长度的存储空间,用来存放该步骤计算出来的唤醒阶段的噪声协方差以及噪声功率谱;S4.1.3.使用该帧数据计算数据的协方差,用该协方差减去噪声协方差,得到语音信号的协方差,转向S5;S4.2.如果是处于唤醒后并等待识别结果的阶段,即唤醒阶段,则转向S2.2.1;S4.2.1.唤醒后,根据唤醒词长度,在存储空间的当前位置向前退唤醒词最大长度,取出该存储位置上的噪声协方差以及功率谱密度,作为该阶段的噪声协方差以及功率谱;并计算出该阶段的语音信号协方差;S5.将S4.1.3和S4.2.1进行出来的语音信号协方差进行特征值分解,进行拉普拉斯变换以及频域到特征...

【专利技术属性】
技术研发人员:孙静新邱东升
申请(专利权)人:北京君正集成电路股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1