一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法技术

技术编号:40078680 阅读:27 留言:0更新日期:2024-01-17 02:04
本发明专利技术公开了一种基于ad‑hoc麦克风阵列的多通道语音去混响融合方法,通过学习多通道输入特征之间的时频特征,有效地集成空间信息,使网络能够有选择地加权每个通道的重要性,从而提高多通道去混响的性能。通过自注意力机制或图注意机制来实现上述操作,并且可以在去混响网络的不同位置上灵活使用该模块。无论将该模块放置在去混响网络的哪个位置,本发明专利技术方法的去混响性能均得到了改善。

【技术实现步骤摘要】

本专利技术属于语音识别,具体涉及一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法


技术介绍

1、随着技术的进步,语音作为一种计算机界面也成为人机交互的关键,越来越多地被应用在各种智慧场景中。在封闭空间中,除了说话人的声音,麦克风不可避免地受到室内混响的干扰,这将导致不同程度地降低语音的可懂度和清晰度,使移动通信设备的效率大大降低。因此,我们需要进行去混响处理,其目标是从麦克风中接收到的带混响音频中去除混响成分,仅保留预测得到的干净音频。

2、一种常见的多通道去混响方法是将深度学习与传统的信号处理方法相结合,这些模型旨在以数学推导的方式模拟混响过程,例如空间滤波器等。其中,desnet(dereverberation,,enhancement and separation net)架构使用了基于深度神经网络(dnn,deep neural networks)的加权预测误差(wpe,weighted prediction error)模块进行去混响。这种方法基本上基于统计信号处理理论。另一种策略是使用dnn计算波束形成器的权重,例如mc-本文档来自技高网...

【技术保护点】

1.一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法,其特征在于,所述四种改进的多通道语音去混响网络中,放置在位置A或位置B的自注意力融合模块和图注意力融合模块,其通道维度均与多通道语音去混响网络哦输入通道维度一致。

【技术特征摘要】

1.一种基于ad-hoc麦克风阵列的多通道语音去混响融合方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于ad-hoc麦克风阵列的多通道语音去混响...

【专利技术属性】
技术研发人员:张晓雷郭红梅陈益江
申请(专利权)人:西北工业大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1