用于选择麦克风阵列的输出波束的方法技术

技术编号:22886114 阅读:62 留言:0更新日期:2019-12-21 08:04
用于选择麦克风阵列的输出波束的方法,包括:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对其进行波束成形以得到多个波束及对应的波束输出信号;(b)对各波束执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于该频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,综合能量指示当前波束的波束输出信号的能量水平,综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且综合语音存在概率和综合能量为标量;及(c)选取综合语音信号能量值最大的波束作为输出波束。

A method for selecting the output beam of microphone array

【技术实现步骤摘要】
用于选择麦克风阵列的输出波束的方法
本专利技术涉及麦克风阵列的输出波束选择,具体涉及一种基于语音存在概率的麦克风阵列输出波束选择方法。
技术介绍
麦克风阵列可以进行多个方向的波束成形,但是,由于输出端硬件资源或应用场景的限制,通常只允许选择某一个方向上的波束作为输出信号。麦克风阵列的输出波束选择本质上是对语音信号来源方向的估计。正确判断语音信号的方向,可以最大化波束成形算法的应用效果;反之,选择非最优的波束作为输出将会大大降低波束成形算法对噪声的抑制效果。因此,在实践中,输出波束选择机制作为波束成形算法的后继环节,对使用麦克风阵列的语音信号处理系统的研究与开发具有非常重要的意义。专利技术人注意到,虽然现有技术中已尝试提出不同的麦克风阵列输出波束选择方法,但这些现有方法至少还存在以下不足:1)依赖于预先存储的说话人信息或依赖于在识别波达方向之前进行唤醒词识别;2)难以同时应对音量较大的噪声干扰和小音量非稳定信号干扰;以及3)未针对物联网微控制单元(MCU)等资源受限设备或应用场景进行充分优化以降低计算复杂度。例如,中国专利CN103888861B号公开了一种麦克风阵列指向性调节方法,其中该方法首先接收语音信息,并根据所述语音信息判断预讲话人的信息,根据判断结果,确定所述预讲话人所在的方向。该方法需要预先存储说话人的身份信息,而对未存储的说话人无法进行波束指向调节。又如,中国专利申请公开CN109119092A号公开了一种基于麦克风阵列的波束指向切换方法,其中该方法只利用了各麦克风之间的相位延时信息和各波束的能量信息,无法区分人声和非人声信号,因而容易被音量较大的噪声干扰。再如,中国专利申请公开CN109473118A号公开了一种双通道语音增强方法,其中仅根据目标波束中待增强声音的存在概率对所述目标波束进行增强,并基于各波束相互之间语音存在概率的比值进行波束选择。在实践中,该方法存在容易受到小音量非稳定信号干扰的缺点。另如,中国专利申请公开CN108899044A号公开了一种语音信号处理方法,其中利用唤醒词存在概率确定语音信号与内容的关联性,具体包括先将语音信号输入至唤醒引擎中,并获取唤醒引擎输出的语音信号置信度,然后再计算语音存在概率并计算原始输入信号的波达方向。然而,在能够对波达方向进行判断之前,该方法依赖于唤醒引擎计算得到特定字词或语句的存在概率,这需要依赖语音识别技术实现,因此只能应用于带有唤醒功能的语音信号处理系统。另外,该方法所要求的唤醒词存在概率计算以及向量运算,增加了该方法的计算复杂度,不利于在例如物联网微控制单元(MCU)等资源受限设备上实施。综上,现有技术中需要一种用于选择麦克风阵列的输出波束的方法,以解决现有技术中存在的上述问题。应理解,上述所列举的技术问题仅作为示例而非对本专利技术的限制,本专利技术并不限于同时解决上述所有技术问题的技术方案。本专利技术的技术方案可以实施为解决上述或其他技术问题中的一个或多个。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种用于选择麦克风阵列的输出波束的方法,其不依赖于预先存储的说话人信息、不需要在识别波达方向之前进行唤醒词识别、能够减轻音量较大的噪声干扰和小音量非稳定信号干扰两者,以及具有降低的计算复杂度。在本专利技术的一方面,提供一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;(b)对于所述多个波束中的每个波束,执行下述操作:将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及(c)选取综合语音信号能量值最大的波束作为输出波束。可选地,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。可选地,在步骤(b)中,在得出当前波束的频谱向量和功率谱向量之后,根据下述公式用频谱向量更新功率谱向量:,其中:t表示帧索引;f表示频点;为当前波束的功率谱向量在第t-1帧在频点f处的元素对应的功率谱;为当前波束的功率谱向量在第t帧上在频点f处的元素对应的功率谱;α1为大于0且小于1的参数;以及为当前波束的频谱向量在第t帧上在频点f处的元素对应的频谱。优选地,α1大于等于0.9且小于等于0.99。可选地,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。可选地,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:维护两个长度与频谱向量相同且初始值为零的向量Sb,min和Sb,tmp;对向量Sb,min和Sb,tmp的每个元素,按下述公式进行更新:其中:t表示帧索引;f表示频点;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量最低值;表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量最低值;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的功率谱;表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量临时最低值;表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量临时最低值;且每当L个元素按上述公式进行更新之后,按下述方式对向量Sb,min和Sb,tmp进行重置:;在对向量Sb,min和Sb,tmp的每个元素进行更新之后,得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。优选地,所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。可选地,所述综合能量是按照下述步骤得出的:对所述功率谱向量的所有元素求平均值以作为所述综合能量。可选地,对所述功率谱向量的所有元素求平均值以作为所述综合能量包括:对所述功率谱向量的所有元素进行加权平均以作为所述综合能量,其中对于所述功率谱向量中的每个元素,若该元素对应的频点位于0至5kHz范围内,则对该元素赋予权重1,否则赋予权重0。可选地,所述综合语音存在概率是按照下述步骤得出的:对于当前波束的信号功率谱向量中的每个元素,根据语音存在概率模型,计算对应于信号功率谱向量中的每个元素的语音存在概率,以生成当前波束的语音存在概率向量;以及执行下述步骤以更新当前波束的语音存在概率向量的每个元素:其中:t表示帧索引;f表示频点;为当前波束的语音存在概率向量;为当前波束的语音存在概率向量在第t-1帧上在频点f处的元素对应的语音存在概率;为当前波束的语音存在概率向本文档来自技高网
...

【技术保护点】
1.一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:/n (a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;/n (b)对于所述多个波束中的每个波束,执行下述操作:/n将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;/n基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及/n (c)选取综合语音信号能量值最大的波束作为输出波束。/n

【技术特征摘要】
1.一种用于选择麦克风阵列的输出波束的方法,所述方法包括下述步骤:
(a)从包括多个麦克风的麦克风阵列接收多个声音信号,对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号;
(b)对于所述多个波束中的每个波束,执行下述操作:
将当前波束的波束输出信号从时域转换至频域,以得出当前波束的频谱向量和功率谱向量;
基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量,其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积,其中所述综合能量指示当前波束的波束输出信号的能量水平,所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率,且所述综合语音存在概率和所述综合能量为标量;以及
(c)选取综合语音信号能量值最大的波束作为输出波束。


2.根据权利要求1所述的方法,其特征在于,所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。


3.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在得出当前波束的频谱向量和功率谱向量之后,根据下述公式用频谱向量更新功率谱向量:


其中:
t表示帧索引;
f表示频点;

为当前波束的功率谱向量在第t-1帧在频点f处的元素对应的功率谱;

为当前波束的功率谱向量在第t帧上在频点f处的元素对应的功率谱;

α
1为大于0且小于1的参数;以及

为当前波束的频谱向量在第t帧上在频点f处的元素对应的频谱。


4.根据权利要求3所述的方法,其特征在于,α1大于等于0.9且小于等于0.99。


5.根据权利要求1所述的方法,其特征在于,在步骤(b)中,在基于当前波束的频谱向量和功率谱向量,计算当前波束的综合语音信号能量之前,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。


6.根据权利要求5所述的方法,其特征在于,确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括:
维护两个长度与频谱向量相同且初始值为零的向量Sb,min和Sb,tmp;
对向量Sb,min和Sb,tmp的每个元素,按下述公式进行更新:






其中:
t表示帧索引;
f表示频点;

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量最低值;

表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量最低值;

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的功率谱;

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量临时最低值;

表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量临时最低值;且每当L个元素按上述公式进行更新之后,按下述方式对向量Sb,min和Sb,tmp进行重置:





在对向量Sb,m...

【专利技术属性】
技术研发人员:赵杨
申请(专利权)人:乐鑫信息科技上海股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1