基于关键词改进麦克风阵列远场拾音的方法技术

技术编号:20078080 阅读:28 留言:0更新日期:2019-01-15 01:33
本发明专利技术公开了一种基于关键词改进麦克风阵列远场拾音的方法,在关键词被关键词识别引擎监测到后,首先对缓存的单帧音源方位进行聚类运算获得可信度较高的音源方位,然后使用信号包络最大值计算远场拾音算法的输入信号增益,再将设备切换到唤醒状态;在唤醒状态下,算法包含输入信号增益调整、波束形成、噪声抑制、混响消除、自动增益控制等,此时自动增益控制可以设置较小的调整范围,避免放大作为背景噪声的低幅值信号,实现在监测到目标关键词时,根据关键词确定出唤醒状态下的音源方向和输入信号幅值增益,从而提高麦克风阵列远场拾音的语音增强效果。

Improvement of microphone array far-field pickup method based on keywords

The invention discloses a method for improving the far-field pickup of microphone array based on keywords. After keywords are monitored by keyword recognition engine, the cached single-frame sound source orientation is clustered to obtain a reliable sound source orientation, then the input signal gain of the far-field pickup algorithm is calculated by using the maximum signal envelope, and the device is switched to the wake-up state. In the wake-up state, the algorithm includes input signal gain adjustment, beamforming, noise suppression, reverberation elimination, automatic gain control, etc. At this time, the automatic gain control can set a smaller adjustment range, avoid amplifying the low-amplitude signal as background noise, and realize that when the target keyword is monitored, the direction of the sound source and the amplitude of the input signal in the wake-up state can be determined according to the keyword. The value gain improves the speech enhancement effect of microphone array far field pickup.

【技术实现步骤摘要】
基于关键词改进麦克风阵列远场拾音的方法
本专利技术涉及语音识别
,特别涉及基于关键词改进麦克风阵列远场拾音的方法。
技术介绍
近年来人工智能呈现爆发式增长,语音交互是人工智能的一个重要领域,而远场语音友好的人机交互方式逐渐成为语音交互的主导方式,如智能音箱、车载语音等;麦克风阵列和远场拾音算法为语音交互提供的高质量语音信号是语音交互的前提。目前主流的远场拾音方式为:设备大部分时候在监听状态下工作,当关键词识别引擎监测到关键词后,设备进入唤醒状态;唤醒状态下,输入语音被识别为各种交互指令;在交互指令完成后,设备回到监听状态。一般情况下,监听状态下的拾音算法包括:回声消除、噪声抑制、混响消除、自动增益控制等;唤醒状态下,通常设备处于静音状态,拾音算法包括:音源定位、波束形成、噪声抑制、混响消除、自动增益控制等。远场拾音的核心算法是回声消除和波束形成,噪声抑制和混响消除常作为回声消除和波束形成的后处理算法。回声消除算法已近比较成熟了,它通过采集设备自己输出给喇叭的信号作为参考信号,以此来消除麦克风拾取信号中包含的设备自身喇叭发出的声音、从而获得干净的外部输入信号。波束形成算法是声呐和雷达的核心,旨在拾取目标方向的信号、而其他方向信号则被过滤掉,由于其他方向信号被过滤掉、则拾取到的目标方向信号的信噪比高、目标信号被增强;波束形成算法同样也是麦克风阵列远场拾音的核心,目前主要采用广义旁瓣消除器(GSC)及其改进算法,它需要音源定位算法为它指定期望拾取信号的方向。音源定位问题分为移动音源定位和固定音源定位,大多数情况下的音源定位属于固定音源定位,如坐在沙发上与远场电视交互时的音源定位,以及车载语音的音源定位等,本专利处理的音源定位针对的就是固定音源。现在的音源定位算法通常指单帧的音源定位,基本原理是不同方向的信号到达两个麦克风的时间差不同,而通过广义互相关理论可以计算出两个麦克风拾取信号的时间差,典型算法如GCC-PHAT及其衍生而来的CSR-PHAT,单帧音源算法通常采用广义互相关最大的方向作为目标音源方向,广义互相关越大对应的方向为正确方向的可能性越大;单帧音源定位算法在信噪比低时,其定位精度低,甚至定位出的是噪声方向,比如:正在进行语音识别时的关门声“砰”,如果将这个方向传递给波束形成,那么波束形成拾取的信号是关门声“砰”。增益控制分为远场拾音输入信号的增益控制和远场拾音输出信号的增益控制。输入信号的增益控制主要由拾音硬件的放大器完成,需要保证近场交互时语音信号幅值不能被削顶,这使得远场交互时语音幅值往往偏小,这个增益通常在拾音硬件校准后就固定不变了。由于在远场交互时,输入信号幅值偏小,远场算法处理后的输出信号也就偏小,需要采用AGC/DRC等自动增益算法调节输出信号的幅值后再将信号送入识别引擎;但这种自动增益算法不能设置较大的调节范围,如果需要放大幅值小的信号,会导致同等水平的背景噪声的放大;而如果对输入信号采用自动增益算法会破坏语音输入信号通道间的相关性,使得基于相关性的多通道算法难以正常工作,如音源定位。
技术实现思路
本专利技术的目的是克服上述
技术介绍
中不足,提供基于关键词改进麦克风阵列远场拾音的方法,可解决麦克风阵列远场拾音算法中因单帧音源方向不可靠、输入信号幅值低导致语音增强的效果受限的问题,通过缓存关键词的单帧方向信息和幅值包络,在关键词被识别后、综合缓存信息获得可靠的音源方向和合适的幅值增益;有了可靠的音源方向和合适的输入信号幅值,麦克风阵列远场拾音的语音增强效果得到提升,能提高远场语音识别率和改善人耳听觉效果。为了达到上述的技术效果,本专利技术采取以下技术方案:基于关键词改进麦克风阵列远场拾音的方法,包括以下步骤:A.设定关键词、设定使用单帧音源定算法获得前N个最大可能的方向被缓存,其中,关键词持续时间为X毫秒、信号每帧持续时间为Y毫秒、关键词持续的帧数K=X/Y,设计长度为K×N的容器1用于缓存音源方向,设计长度为K的容器2用于缓存帧内包络最大值;设定语音信号最大幅值的期望值H;其中,关键词及其识别引擎通常是针对特定产品专门定制的,关键词通常是很少出现在日常语言中、能代表产品个性的特殊词语,如“某某小白”、“某某同学”、“某某叮咚”等等;关键词识别引擎则是专门用于识别关键词的识别引擎,关键词及其识别引擎的细节不在本申请的技术方案的讨论范围内,而是直接使用;B.在处于监听状态下,通过麦克风阵列采集一帧信号,信号依次经回声消除、噪声抑制、混响消除处理;C.实施单帧音源定位算法,取前N个最大可能的方向,将这N个方向存入容器1,容器1中最先存入的N个方向则被挤出容器;本申请的技术方案中是获取最大可能的前N个方向进行缓存,而不是仅仅取第一个方向,例如获取前2个方向,那么一个方向可能为音源方向、另一个可能为噪声方向;其中,缓存方向的容器可以采用如遵循先进先出规则的队列等,新获取的一组方向存入队列时,最旧的那组方向被挤出队列;D.计算信号包络,将帧内包络最大值存入容器2,容器2中最先存入的帧内包络最大值被挤出容器;E.信号经自动增益控制后送入关键词识别引擎;F.判断关键词是否被关键词识别引擎识别出,如果没有则返回步骤B继续处理,如果关键词被识别出则进入步骤G;G.取出容器1中缓存的K×N个方向,采用聚类算法对这K×N个方向进行聚类分析,其中,聚类算法的类数设置为M,采用总隶属度最大的类的中心作为最终的音源方向O;当关键词识别引擎监测到关键词后,采用现有聚类算法对关键词从开始到结束时缓存的所有方向进行聚类分析,聚类算法能将缓存方向中的音源方向和噪声方向分别聚合在一起,最终采用总隶属度最大的类的中心作为最终的音源方向;H.筛选出容器2中的K个值的最大值作为包络最大值,设定语音信号最大幅值的期望值H,期望值H与包络最大值的比值G即作为唤醒状态下远场拾音算法输入信号的增益;在监听状态下,计算语音信号包络、并缓存帧内包络最大值;缓存方法同音源方向的缓存方法;当关键词识别引擎监测到关键词后,筛选出关键词从开始到结束时缓存的帧内包络最大值的最大值,这个全局最大值可以简称为包络最大值,即筛选出缓存容器中的K个值的最大值;设定语音信号最大幅值的期望值,期望值与包络最大值的比值,即作为唤醒状态下远场拾音算法输入信号的增益;该增益为固定增益,不会影响语音输入信号通道之间的相关性,音源距离麦克风阵列越远,关键词持续期间的包络最大值越小,远场算法输入信号需要的增益越大,这样才能将输入信号幅值调节到期望值的水平;I.进入唤醒状态,麦克风阵列采集一帧信号,信号乘以增益G;J.波束形成指向获得的音源方向O拾取语音信号,处理乘以增益后的信号;K.信号依次经噪声抑制、混响消除处理;L.信号经自动增益控制后,送入交互指令识别引擎;M.交互指令被识别出,则设备响应指令,并返回步骤B;否则返回步骤I;本专利技术的方法中,在监听状态下,回声消除、噪声抑制、混响消除等算法之后,自动增益控制之前,加入单帧音源方向计算与加入信号包络计算、并对单帧音源方向与包络进行缓存;在关键词被关键词识别引擎监测到后,首先对缓存的单帧音源方位进行聚类运算获得可信度较高的音源方位,然后使用信号包络最大值计算远场拾音算法的输入信号增益,再将设备切换到唤醒状态;在唤醒状态本文档来自技高网
...

【技术保护点】
1.基于关键词改进麦克风阵列远场拾音的方法,其特征在于,包括以下步骤:A.设定关键词、设定使用单帧音源定算法获得前N个最大可能的方向被缓存,其中,关键词持续时间为X毫秒、信号每帧持续时间为Y毫秒、关键词持续的帧数K=X/Y,设计长度为K×N的容器1用于缓存音源方向,设计长度为K的容器2用于缓存帧内包络最大值;设定语音信号最大幅值的期望值H;B.在处于监听状态下,通过麦克风阵列采集一帧信号,信号依次经回声消除、噪声抑制、混响消除处理;C.实施单帧音源定位算法,取前N个最大可能的方向,将这N个方向存入容器1,容器1中最先存入的N个方向则被挤出容器;D.计算信号包络,将帧内包络最大值存入容器2,容器2中最先存入的帧内包络最大值被挤出容器;E.信号经自动增益控制后送入关键词识别引擎;F.判断关键词是否被关键词识别引擎识别出,如果没有则返回步骤B继续处理,如果关键词被识别出则进入步骤G;G.取出容器1中缓存的K×N个方向,采用聚类算法对这K×N个方向进行聚类分析,其中,聚类算法的类数设置为M,采用总隶属度最大的类的中心作为最终的音源方向O;H.筛选出容器2中的K个值的最大值作为包络最大值,设定语音信号最大幅值的期望值H,期望值H与包络最大值的比值G即作为唤醒状态下远场拾音算法输入信号的增益;I.进入唤醒状态,麦克风阵列采集一帧信号,信号乘以增益G;J.波束形成指向获得的音源方向O拾取语音信号,处理乘以增益后的信号;K.信号依次经噪声抑制、混响消除处理;L.信号经自动增益控制后,送入交互指令识别引擎;M.交互指令被识别出,则设备响应指令,并再从步骤B执行;否则返回步骤I继续进行。...

【技术特征摘要】
1.基于关键词改进麦克风阵列远场拾音的方法,其特征在于,包括以下步骤:A.设定关键词、设定使用单帧音源定算法获得前N个最大可能的方向被缓存,其中,关键词持续时间为X毫秒、信号每帧持续时间为Y毫秒、关键词持续的帧数K=X/Y,设计长度为K×N的容器1用于缓存音源方向,设计长度为K的容器2用于缓存帧内包络最大值;设定语音信号最大幅值的期望值H;B.在处于监听状态下,通过麦克风阵列采集一帧信号,信号依次经回声消除、噪声抑制、混响消除处理;C.实施单帧音源定位算法,取前N个最大可能的方向,将这N个方向存入容器1,容器1中最先存入的N个方向则被挤出容器;D.计算信号包络,将帧内包络最大值存入容器2,容器2中最先存入的帧内包络最大值被挤出容器;E.信号经自动增益控制后送入关键词识别引擎;F.判断关键词是否被关键词识别引擎识别出,如果没有则返回步骤B继续处理,如果关键词被识别出则进入步骤G;G.取出容器1中缓存的K×N个方向,采用聚类算法对这K×N个方向进行聚类分析,其中,聚类算法的类数设置为M,采用总隶属度最大的类的中心作为最...

【专利技术属性】
技术研发人员:董天旭
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1