基于关键词改进麦克风阵列远场拾音的方法技术

技术编号：20078080 阅读：28 留言：0更新日期：2019-01-15 01:33

本发明专利技术公开了一种基于关键词改进麦克风阵列远场拾音的方法，在关键词被关键词识别引擎监测到后，首先对缓存的单帧音源方位进行聚类运算获得可信度较高的音源方位，然后使用信号包络最大值计算远场拾音算法的输入信号增益，再将设备切换到唤醒状态；在唤醒状态下，算法包含输入信号增益调整、波束形成、噪声抑制、混响消除、自动增益控制等，此时自动增益控制可以设置较小的调整范围，避免放大作为背景噪声的低幅值信号，实现在监测到目标关键词时，根据关键词确定出唤醒状态下的音源方向和输入信号幅值增益，从而提高麦克风阵列远场拾音的语音增强效果。

Improvement of microphone array far-field pickup method based on keywords

The invention discloses a method for improving the far-field pickup of microphone array based on keywords. After keywords are monitored by keyword recognition engine, the cached single-frame sound source orientation is clustered to obtain a reliable sound source orientation, then the input signal gain of the far-field pickup algorithm is calculated by using the maximum signal envelope, and the device is switched to the wake-up state. In the wake-up state, the algorithm includes input signal gain adjustment, beamforming, noise suppression, reverberation elimination, automatic gain control, etc. At this time, the automatic gain control can set a smaller adjustment range, avoid amplifying the low-amplitude signal as background noise, and realize that when the target keyword is monitored, the direction of the sound source and the amplitude of the input signal in the wake-up state can be determined according to the keyword. The value gain improves the speech enhancement effect of microphone array far field pickup.

全部详细技术资料下载

【技术实现步骤摘要】
基于关键词改进麦克风阵列远场拾音的方法
本专利技术涉及语音识别
，特别涉及基于关键词改进麦克风阵列远场拾音的方法。
技术介绍
近年来人工智能呈现爆发式增长，语音交互是人工智能的一个重要领域，而远场语音友好的人机交互方式逐渐成为语音交互的主导方式，如智能音箱、车载语音等；麦克风阵列和远场拾音算法为语音交互提供的高质量语音信号是语音交互的前提。目前主流的远场拾音方式为：设备大部分时候在监听状态下工作，当关键词识别引擎监测到关键词后，设备进入唤醒状态；唤醒状态下，输入语音被识别为各种交互指令；在交互指令完成后，设备回到监听状态。一般情况下，监听状态下的拾音算法包括：回声消除、噪声抑制、混响消除、自动增益控制等；唤醒状态下，通常设备处于静音状态，拾音算法包括：音源定位、波束形成、噪声抑制、混响消除、自动增益控制等。远场拾音的核心算法是回声消除和波束形成，噪声抑制和混响消除常作为回声消除和波束形成的后处理算法。回声消除算法已近比较成熟了，它通过采集设备自己输出给喇叭的信号作为参考信号，以此来消除麦克风拾取信号中包含的设备自身喇叭发出的声音、从而获得干净的外部输入信号。波束形成算法是声呐和雷达的核心，旨在拾取目标方向的信号、而其他方向信号则被过滤掉，由于其他方向信号被过滤掉、则拾取到的目标方向信号的信噪比高、目标信号被增强；波束形成算法同样也是麦克风阵列远场拾音的核心，目前主要采用广义旁瓣消除器(GSC)及其改进算法，它需要音源定位算法为它指定期望拾取信号的方向。音源定位问题分为移动音源定位和固定音源定位，大多数情况下的音源定位属于固定音源定位，如坐在沙发上与远...

【技术保护点】
1.基于关键词改进麦克风阵列远场拾音的方法，其特征在于，包括以下步骤：A.设定关键词、设定使用单帧音源定算法获得前N个最大可能的方向被缓存，其中，关键词持续时间为X毫秒、信号每帧持续时间为Y毫秒、关键词持续的帧数K＝X/Y，设计长度为K×N的容器1用于缓存音源方向，设计长度为K的容器2用于缓存帧内包络最大值；设定语音信号最大幅值的期望值H；B.在处于监听状态下，通过麦克风阵列采集一帧信号，信号依次经回声消除、噪声抑制、混响消除处理；C.实施单帧音源定位算法，取前N个最大可能的方向，将这N个方向存入容器1，容器1中最先存入的N个方向则被挤出容器；D.计算信号包络，将帧内包络最大值存入容器2，容器2中最先存入的帧内包络最大值被挤出容器；E.信号经自动增益控制后送入关键词识别引擎；F.判断关键词是否被关键词识别引擎识别出，如果没有则返回步骤B继续处理，如果关键词被识别出则进入步骤G；G.取出容器1中缓存的K×N个方向，采用聚类算法对这K×N个方向进行聚类分析，其中，聚类算法的类数设置为M，采用总隶属度最大的类的中心作为最终的音源方向O；H.筛选出容器2中的K个值的最大值作为包络最大值，设定语...

【技术特征摘要】
1.基于关键词改进麦克风阵列远场拾音的方法，其特征在于，包括以下步骤：A.设定关键词、设定使用单帧音源定算法获得前N个最大可能的方向被缓存，其中，关键词持续时间为X毫秒、信号每帧持续时间为Y毫秒、关键词持续的帧数K＝X/Y，设计长度为K×N的容器1用于缓存音源方向，设计长度为K的容器2用于缓存帧内包络最大值；设定语音信号最大幅值的期望值H；B.在处于监听状态下，通过麦克风阵列采集一帧信号，信号依次经回声消除、噪声抑制、混响消除处理；C.实施单帧音源定位算法，取前N个最大可能的方向，将这N个方向存入容器1，容器1中最先存入的N个方向则被挤出容器；D.计算信号包络，将帧内包络最大值存入容器2，容器2中最先存入的帧内包络最大值被挤出容器；E.信号经自动增益控制后送入关键词识别引擎；F.判断关键词是否被关键词识别引擎识别出，如果没有则返回步骤B继续处理，如果关键词被识别出则进入步骤G；G.取出容器1中缓存的K×N个方向，采用聚类算法对这K×N个方向进行聚类分析，其中，聚类算法的类数设置为M，采用总隶属度最大的类的中心作为最...

【专利技术属性】
技术研发人员：董天旭，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人