一种语音信号处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:26224679 阅读:44 留言:0更新日期:2020-11-04 10:59
本申请公开了一种语音信号处理方法、装置、设备以及存储介质,涉及自然语言处理、深度学习和语音交互技术领域。具体实现方案为:对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;根据所述至少两路语音信号,确定目标声源的掩码;根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。以高质量从多个声源的原始语音信号中提取出目标声源的语音信号。

【技术实现步骤摘要】
一种语音信号处理方法、装置、设备以及存储介质
本申请涉及信号处理
,尤其自然语言处理、深度学习和语音交互技术,具体涉及一种语音信号处理方法、装置、设备以及存储介质。
技术介绍
在语音交互场景中,多声源(例如多人说话,或者人声和非人声等)场景十分常见,例如智能家居语音交互场景和车载语音交互场景等。如何从多个声源的原始语音信号中提取目标声源的语音信号十分重要,因此亟需一种能够很好提取出目标声源的语音信号的方法。
技术实现思路
本公开实施例提供了一种语音信号处理方法、装置、设备以及存储介质,以高质量从多个声源的原始语音信号中提取出目标声源的语音信号。根据本公开的一方面,提供了一种语音信号处理方法,该方法包括:对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;根据所述至少两路语音信号,确定目标声源的掩码;根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。根据本公开的另一方面,提供了一种语音信号处理装置,该装置包括:波束形成模块,用于对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;掩码确定模块,用于根据所述至少两路语音信号,确定目标声源的掩码;目标信号确定模块,用于根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。根据本公开的另一方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的语音信号处理方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请任一实施例所述的语音信号处理方法。根据本申请的技术解决了现有实数网络无法恢复目标声源的相位特征等的问题,可高质量的从多个声源的原始语音信号中提取目标声源的语音信号,提升了系统的整理性能,为高质量提取目标声源的语音信号提供了一种可选方案。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例提供的一种语音信号处理方法的流程图;图2是根据本申请实施例提供的另一种语音信号处理方法的流程图;图3A是根据本申请实施例提供的一种语音信号处理流程示意图;图3B是根据本申请实施例提供的一种采用IVA算法在车载高噪声数据下的处理效果示意图;图3C是根据本申请实施例提供的一种采用本申请方案在车载高噪声数据下的处理效果示意图;图4是根据本申请实施例提供的一种语音信号处理装置的结构示意图;图5是用来实现本申请实施例的语音信号处理方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请实施例提供的一种语音信号处理方法的流程图。本申请实施例适用于在多个声源场景(即多个人同时说话,或者说话人与多噪声源并存等场景,如会议室语音交互、车载语音交互、智能家居语音交互和审讯场景等)下,如何高质量从多个声源的原始语音信号中提取目标声源的语音信号的情况。该实施例可以由语音信号处理装置来执行,该装置可以采用软件和/或硬件来实现,并可集成于语音信号处理功能的电子设备上,如服务器上。如图1所示,该方法包括:S101,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号。本实施例中,所谓麦克风阵列可以由至少两个麦克风构成,且麦克风阵列的形状包括但不限于线性阵列、平面阵列以及立体阵列等;此外,本实施例对麦克风之间的间距不做限定,可以相同,也可以不同。原始语音信号是指在多个声源场景中,麦克风阵列所采集的多个(两个或两个以上)候选声源的混合信号。例如,在会议室场景下,原始语音信号可以是多个人说话所产生的声源信号混合而成;在车载环境下,原始语音信号可以是车内人员说话所产生的声源信号和车外环境所产生的噪声源信号混合而成;在机械环境下,原始语音信号可以是工厂内不同机械运转所产生的多个噪声源信号混合而成等。具体的,可以采用波束算法,将麦克风阵列所在空间分割为多个波束,拾取原始语音信号在每一波束内的信号,从而可得到多路语音信号。可选的,本实施例中的波束算法可根据实际场景中麦克风的位置信息和声源位置信息等进行确定,包括但不限于差分波束和延迟和波束等;分割可根据实际声源场景信息确定,包括但不限于等空间划分和重叠划分等。本实施例采用波束算法对原始语音信号进行处理,不仅可提取到多路语音信号,而且还可达到抑制噪声的目的。对于声源位置相对固定的场景,如车载场景、审讯场景和会议场景等,为了可自动快速且精准从原始语音信号中获取到多路语音信号,本实施例可以采用人工智能技术如通过对神经网络模型进行训练,得到神经网络波束,进而采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。可选的,本实施例中的神经网络波束可通过如下方式确定:可以预先采用包含声源空间信息的冲击响应与原始语音信号做卷积生成训练数据,利用训练数据对神经网络模型进行训练,得到神经网络波束。需要说明的是,本实施例基于神经网络波束,能够自动且快速获取到多路语音信号,使语音信号处理更加智能化。S102,根据至少两路语音信号,确定目标声源的掩码。本实施例中,目标声源可以是候选声源中的一个或多个。例如,车载场景中,车辆上4个座位处的人正在交互,则候选声源可以为4个座位处的人(进一步可以是人的嘴巴);目标声源可以是正驾驶和副驾驶中的至少一个。目标声源的掩码即为目标声源的语音信号的掩码。可选的,目标声源的掩码可以为实数掩码,还可以为复数掩码;实数掩码用于表征目标声源的语音信号的幅度和能量权重,复数掩码用于表征目标声源的语音信号在特征域的复数权重。由于实数掩码不能辩证信号的相位,本实施例中,目标声源的掩码优选为目标声源的复数掩码。其中,复数掩码可以采用a+b*i的形式表示,其中a,b都是浮点数。可选的,本实施例可以基于预先训练的神经网络,对至少两路语音信号进行分析处理,可得到目标声源的掩码。需要说明的是,相比于现有的实数网络方案,本申请分离得到目标声源的语音信号的质量更优越,且语音识别率高。此外,现有的深度学习方案多为实数网络方案,只能恢复本文档来自技高网...

【技术保护点】
1.一种语音信号处理方法,包括:/n对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;/n根据所述至少两路语音信号,确定目标声源的掩码;/n根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。/n

【技术特征摘要】
1.一种语音信号处理方法,包括:
对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
根据所述至少两路语音信号,确定目标声源的掩码;
根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号。


2.根据权利要求1所述的方法,其中,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号,包括:
采用神经网络波束,对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行处理,得到至少两路语音信号。


3.根据权利要求1所述的方法,其中,根据所述至少两路语音信号,确定目标声源的掩码,包括:
对所述至少两路语音信号进行特征域变换,并从所述特征域中提取至少两个候选声源的语音信号特征;
采用复数掩码生成器对所提取的所述至少两个候选声源的语音信号特征进行融合和排序处理,得到目标声源的复数掩码。


4.根据权利要求3所述的方法,其中,从所述特征域中提取至少两个候选声源的语音信号特征,包括:
确定所述至少两路语音信号之间的差异特征;所述差异特征包括幅度特征和相位特征;
根据所述差异特征,从所述特征域中提取至少两个候选声源的语音信号特征。


5.根据权利要求1-4任一所述的方法,其中,根据所述目标声源的掩码和所述原始语音信号,得到目标声源的语音信号,包括:
根据所述目标声源的掩码和所述原始语音信号的特征,得到目标声源特征;
根据所述目标声源特征,得到所述目标声源的语音信号。


6.根据权利要求1所述的方法,还包括:
根据所述目标声源的语音信号和声源场景信息,确定对终端的控制指令。


7.一种语音信号处理装置,包括:
波束形成模块,用于对麦克风阵列所采集到的至少两个候选声源的原始语音信号进行波束形成,得到至少两路语音信号;
掩码确定模块,用于根据所述至少两路语音信号,确定目...

【专利技术属性】
技术研发人员:吴晓潭贡昱洲罗友李峥魏建强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1