基于时-频-空掩蔽的多通道语音增强方法及计算机设备技术

技术编号:43884530 阅读:27 留言:0更新日期:2024-12-31 19:09
本发明专利技术属于多通道语音通信领域,公开了一种基于时‑频‑空掩蔽的多通道语音增强方法及计算机设备,包括获取多通道带噪语音的时域数据并进行频域转换,结合时域数据中的时刻索引得到多通道带噪语音的时频域数据;基于满足空间基底的变换矩阵,将多通道带噪语音的时频域数据转换为时频空域数据;将多通道带噪语音的时频空域数据输入3D U‑Net模型,得到3D U‑Net模型输出的时频空域掩码值;利用时频空域掩码值对多通道带噪语音的时频空域数据进行掩蔽操作,得到降噪后目标语音的时频空域数据;将降噪后目标语音的时频空域数据恢复至时域,输出降噪后目标语音的时域数据,完成多通道语音增强。本发明专利技术有效提升复杂环境中语音增强方法性能。

【技术实现步骤摘要】

本专利技术属于多通道语音通信领域,具体涉及一种基于时-频-空掩蔽的多通道语音增强方法及计算机设备,当麦克风阵列采集和传输的信号被大量背景噪声污染时,采用本专利技术信号处理技术,实现语音增强目的,提升语音的可懂度,改善语音听感,提升交流效率。


技术介绍

1、在麦克风阵列的应用中,相比于单通道语音处理,多通道语音增强技术具有更强的鲁棒性。麦克风阵列可以提供空间上分集,借助阵列信号处理领域的波束成形技术,可以从被噪声污染的输入音频信号中分离出目标语音信号。所谓波束成形,即对不同通道语音设计合适的权重,达到增强目标语音波束的同时抑制干扰波束的目的。常见的波束成形算法分为两类。第一类:固定权重的波束成形,补偿由于声波到达不同麦克风的时间差所引起的相位差,达到语音增强目的。主要包括延时求和算法(delay and sum,das)、加权延时求和算法(weighted das)等等。该类算法的性能和阵列麦克风数量线性相关,并且滤波器固定不变的参数不适合复杂多变的实际场景。第二类:自适应波束成形算法。经典算法包括:线性约束最小方差准则算法(linearly constra本文档来自技高网...

【技术保护点】

1.一种基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述基于时-频-空掩蔽的多通道语音增强方法,包括:

2.根据权利要求1所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述对所述多通道带噪语音的时域数据进行频域转换,并结合时域数据中的时刻索引得到多通道带噪语音的时频域数据,包括:

3.根据权利要求2所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述基于满足空间基底的变换矩阵,将所述多通道带噪语音的时频域数据转换为多通道带噪语音的时频空域数据,包括:

4.根据权利要求1所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在...

【技术特征摘要】

1.一种基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述基于时-频-空掩蔽的多通道语音增强方法,包括:

2.根据权利要求1所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述对所述多通道带噪语音的时域数据进行频域转换,并结合时域数据中的时刻索引得到多通道带噪语音的时频域数据,包括:

3.根据权利要求2所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述基于满足空间基底的变换矩阵,将所述多通道带噪语音的时频域数据转换为多通道带噪语音的时频空域数据,包括:

4.根据权利要求1所述的基于时-频-空掩蔽的多通道语音增强方法,其特征在于,所述3d u-net模型训练时,将进行双曲正切压缩后的复值理想比率掩蔽值作为训练目标,公式如下:

5...

【专利技术属性】
技术研发人员:徐晓雯滑福宁李嫣然
申请(专利权)人:中电海康集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1