多通道语音增强方法、系统、电子设备和存储介质技术方案

技术编号:35778650 阅读:19 留言:0更新日期:2022-12-01 14:23
本发明专利技术实施例提供一种多通道语音增强方法、系统、电子设备和存储介质。该方法包括:采集多通道语音信号;将多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下声源方向的频点级的时频掩蔽值;将多通道语音信号以及频点级的时频掩蔽值输入至第二信号处理模块,重建多通道语音信号的相位信息,得到第一增强语音;基于频点级的时频掩蔽值以及第一增强语音增强处理,得到减小失真的第二增强语音。本发明专利技术实施例能够更准确地估计掩蔽值,解决欠定条件下的信号处理,可以更好地实现相位重建,获得更好的降噪水平。获得更好的降噪水平。获得更好的降噪水平。

【技术实现步骤摘要】
多通道语音增强方法、系统、电子设备和存储介质


[0001]本专利技术涉及智能语音领域,尤其涉及一种多通道语音增强方法、系统、电子设备和存储介质。

技术介绍

[0002]由于语音的音频质量影响着语音识别结果,为了进一步提升语音识别的准确性,会对采集的音频进行降噪,实现语音增强。由于智能设备搭载的麦克风不同采集的音频也会不同,例如,单麦克风可以采集到单通道语音,而多麦克风阵列可以采集到多通道语音。
[0003]对于单通道语音可以使用单通道传统降噪方法,其基本思路是利用各种各样的方法估计噪声的功率谱,然后利用噪声功率谱估计出滤波器,实现降噪的语音增强目的;
[0004]对于多通道语音可以使用多通道波束形成,依据不同方向到麦克风阵列处的相位差不同,设计滤波器实现方向性降噪;多通道盲源分离利用声源的独立性,推导出使得代价函数最小的滤波器,进行声源分离;神经网络方法通过构造输入和标准答案,让模型自动学习语音内在的联系,达到降噪的目的。
[0005]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0006]单通道传统降噪方法无法消除人声干扰,音乐,键盘敲桌子等非稳态噪声,神经网络方法可以通过同类训练消除音乐,键盘敲桌子等声音,但是依旧解决不了人声干扰;多通道传统信号处理可以解决人声干扰,但是传统信号处理方法存在噪声抑制不干净问题,低信噪比性能下降明显,且欠定条件下算法失效,欠定问题即声源数大于麦克风数目,神经网络方法存在相位重建困难,模型输出信号失真大问题。
专利技术内
[0007]为了至少解决现有技术中的降噪方法存在着各自的缺陷,对于非稳态噪声、人声干扰、欠定、信号失真时语音增强效果较差的问题。第一方面,本专利技术实施例提供一种多通道语音增强方法,包括:
[0008]采集多通道语音信号;
[0009]将所述多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值;
[0010]将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块,重建所述多通道语音信号的相位信息,得到第一增强语音;
[0011]基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理,得到减小失真的第二增强语音。
[0012]第二方面,本专利技术实施例提供一种多通道语音增强系统,包括:
[0013]语音信号采集程序模块,用于采集多通道语音信号;
[0014]神经网络处理程序模块,用于将所述多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下所述声源方向
的频点级的时频掩蔽值;
[0015]信号处理程序模块,用于将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块,重建所述多通道语音信号的相位信息,得到第一增强语音;
[0016]语音增强程序模块,用于基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理,得到减小失真的第二增强语音。
[0017]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的多通道语音增强方法的步骤。
[0018]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的多通道语音增强方法的步骤。
[0019]本专利技术实施例的有益效果在于:神经网络模块在低信噪比情况下,能够更准确地估计掩蔽值,甚至可以非常好地解决欠定条件下的信号处理问题;传统信号处理模块利用自身强大的原理基础,稳定性更高,更好地实现相位重建;将传统信号处理和神经网络结合,二者结合相辅相成,神经网络估计的掩蔽值能够更精细地控制传统信号处理滤波器的更新,整个系统相比任一单个系统都能获得更好的降噪水平。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例提供的一种多通道语音增强方法的流程图;
[0022]图2是本专利技术一实施例提供的一种多通道语音增强方法的双通道结构示意图;
[0023]图3是本专利技术一实施例提供的一种多通道语音增强系统的结构示意图;
[0024]图4为本专利技术一实施例提供的一种多通道语音增强的电子设备的实施例的结构示意图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]如图1所示为本专利技术一实施例提供的一种多通道语音增强方法的流程图,包括如下步骤:
[0027]S11:采集多通道语音信号;
[0028]S12:将所述多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值;
[0029]S13:将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理
模块,重建所述多通道语音信号的相位信息,得到第一增强语音;
[0030]S14:基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理,得到减小失真的第二增强语音。
[0031]在本实施方式中,考虑到现有技术通常为了解决噪声抑制不干净问题,通常会加入后处理模块,进行进一步降噪,但是后处理通常只能抑制稳态噪声,对类似人声的非稳态没有很好的效果。本方法考虑到单纯的后处理,对于语音增强效果不佳,进而将多通道神经网络与多通道传统信号处理相结合,利用神经网络的输出控制传统信号处理滤波器的更新。本方法的结构如图2所示,包括神经网络模块、传统信号处理模块、结合模块。
[0032]对于步骤S11,可以将本方法应用于智能音箱、会议记录笔等智能设备中,这些设备通常安装有麦克风,通过麦克风来采集语音信号。也可以使用模拟或者数字麦克风。为了采集最佳语音,进一步提升语音识别效果,可以采用麦克风阵列,利用麦克风阵列可以采集各个方向的多通道语音,例如有4麦克、6麦克、8麦克阵列来采集不同方向的语音源信号。
[0033]对于步骤S12,以4麦克的会议记录笔为例,在会议场景中,有多个会议主讲人,将会议记录笔放在场景中央,来记录多个会议主讲人的语音。由于多个会议主讲人所坐的位置不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多通道语音增强方法,包括:采集多通道语音信号;将所述多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值;将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块,重建所述多通道语音信号的相位信息,得到第一增强语音;基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理,得到减小失真的第二增强语音。2.根据权利要求1所述的方法,其中,所述第一信号处理模块由深度神经网络、循环神经网络、卷积神经网络中之一或多个神经网络组合构建,其中,所述第一信号处理模块输出的声源方向的频点级的时频掩蔽值与和所述声源方向相对应的干扰方向的噪声频点成反比。3.根据权利要求1所述的方法,其中,所述第二信号处理模块由多通道的波束形成模型和/或盲源分离模型构建。4.根据权利要求3所述的方法,其中,当所述第二信号处理模块由多通道的波束形成模型构建时,基于所述频点级的时频掩蔽值的大小控制波束形成滤波器的更新速率,其中,所述频点级的时频掩蔽值的大小与所述滤波器的更新速率成反比,以降低滤波处理的失真。5.一种多通道语音增强系统,包括:语音信号采集程序模块,用于采集多通道语音信号;神经网络处理程序模块,用于将所述多通道语音信号输入至第一信号处理模块,进行声源方向信号增强处理,得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值;信号处理程序模块,用于将所述多通...

【专利技术属性】
技术研发人员:邵雅婷周强
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1