一种自适应抗混响的麦克风阵列语音增强方法及其系统技术方案

技术编号：39299082 阅读：14 留言：0更新日期：2023-11-07 11:07

本发明专利技术提出了一种自适应抗混响的麦克风阵列语音增强方法及其系统，该方法包括如下步骤：训练与预存步骤，响应于利用不同混响数据训练获得不同混响条件下的抗混响滤波器系数，形成抗混响滤波器系数库并预先保存以待后续选用；估计与匹配步骤，对麦克风阵列实时接收到的信号进行混响特征提取，输入到混响程度分类器中进行估计，麦克风阵列根据估计结果选用预先保存的抗混响滤波器系数库，并在抗混响滤波器系数库中进行混响程度匹配选择调用合适的系数，将原始信号与经过混响程度匹配的抗混响滤波器系数进行抗混响滤波处理得到抗混响增强信号。本方法可在不同混响环境进行自适应抗混响处理，从而提高麦克风阵列在不同混响环境下的语音增强性能。境下的语音增强性能。境下的语音增强性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应抗混响的麦克风阵列语音增强方法及其系统

[0001]本专利技术属于语音信号处理
，具体涉及一种自适应抗混响的麦克风阵列语音增强方法及其系统。

技术介绍

[0002]麦克风阵列在各种语音通信、交互场景中得到了越来越多的应用，但其接收的语音信号在实际应用混响环境中受不同界面反射形成的混响干扰，特别是由不同尺寸、材质、界面模式等多样化环境引起的高度随机、多变混响给传统的麦克风阵列语音增强算法带来了极大的困难，语音抗混响技术引起研究界和业界的广泛关注。
[0003]Amar A等提出的基于波束形成的去混响算法通过空间滤波来抑制来自不同方向的反射声波。然而，波束形成算法的性能受到许多因素的影响，例如阵列的大小和信号本身。最严重的缺点是无法抑制来自声源方向的混响信号；
[0004]Li Y等提出的基于逆滤波的去混响算法包括两个步骤：盲系统识别和逆滤波计算。这种去混响的核心是通过盲估计方法获得房间混响信息，从而构造逆滤波器。由于通常盲估计算法不能保证实际环境中的性能，这种方法效果有限；
[0005]Chen Y等提出的加权预测误差(Weighted Prediction Error,WPE)通过使用多个先前帧信号进行加权来预测当前帧信号中的混响分量，但在不同混响环境下如何优化确定WPE算法参数如加权系数影响了其实际应用；
[0006]Kinoshita等提出一种基于神经网络频谱估计的去混响算法(DNN)，对多通道的带噪语音进行语音特征提取后作为神经网络的输入，并以当前帧的混响幅度谱与...

【技术保护点】

【技术特征摘要】
1.一种自适应抗混响的麦克风阵列语音增强方法，其特征在于，该方法包括如下步骤：训练与预存步骤，响应于利用不同混响数据训练获得不同混响条件下的抗混响滤波器系数，形成抗混响滤波器系数库并预先保存以待后续选用；估计与匹配步骤，对麦克风阵列实时接收到的信号进行混响特征提取，将混响特征提取输入到混响程度分类器中进行估计，麦克风阵列根据估计结果选用预先保存的抗混响滤波器系数库，并在抗混响滤波器系数库中进行混响程度匹配选择调用合适的系数，将原始信号与经过混响程度匹配的抗混响滤波器系数进行抗混响滤波处理得到抗混响增强信号。2.根据权利要求1所述的自适应抗混响的麦克风阵列语音增强方法，其特征在于，对麦克风阵列实时接收到的信号进行混响特征提取具体包括：对原始麦克风阵列信号提取的GCC
‑
PHAT特征以及近似房间混响感知特征ARIR两种特征进行特征融合，拼接成一维的特征输入向量作为训练抗混响滤波器系数库的神经网络模型模型ARM的输入特征；其中，近似房间混响感知特征ARIR通过麦克风阵列原始输入信号与麦克风阵列波束形成的输出信号进行互相关运算，以提取环境的近似混响特征；其中，GCC
‑
PHAT为本领域通用的信号特征形式，具体描述如下：麦克风阵列i通道和j通道接收信号可表示为：x
i
＝a
i
s(t
‑
τ
i
)+n
i
(t)x
j
＝a
j
s(t
‑
τ
j
)+n
j
(t)其中s(t)表示声源信号，a
i
、a
j
分别为i通道和j通道的衰减系数，τ
i
、τ
j
分别为i通道和j通道的时延时间，n
i
(t)、n
j
(t)分别表示i通道和j通道采集的环境噪声，则GCC
‑
PHAT特征表示为：其中G
ij
(ω)为通道间信号的互功率谱，X
i
(ω)和X
j
(ω)分别为x
i
(t)和x
j
(t)的傅里叶变换，(
·
)
*
表示取复共轭，ω
ij
(ω)为频域加权函数，其形式如下：近似房间混响感知特征ARIR表示如下：其中，M表示麦克风阵列通道数；y
BF
(n,θ0)表示麦克风阵列波束形成输出，x
m
(n)表示麦克风阵列第m通道的原始信号。3.根据权利要求2所述的自适应抗混响的麦克风阵列语音增强方法，其特征在于，还包括：抗混响滤波器系数库的神经网络模型ARM采用标准DNN网络模型框架；
其中，原始麦克风阵列信号提取GCC
‑
PHAT特征和ARIR特征进行特征融合，拼接成一维特征输入向量送入神经网络作为输入层，隐藏层采用双层的全连接层，...

【专利技术属性】
技术研发人员：童峰，刘雨佶，何伟，周跃海，陈东升，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人