一种红外触发的远场双麦远场语音识别方法技术

技术编号:21613025 阅读:33 留言:0更新日期:2019-07-13 20:59
本发明专利技术公开了一种红外触发的远场双麦远场语音识别方法,通过前置后置双麦克的方式,从硬件上限制两路麦克的拾音方向,前置麦克拾取的语音强度大,背景噪声相对小,而后置麦克拾取的语音相对小,背景噪声相对大,而且不会包含喷麦噪声。同时,软件算法利用硬件麦克拾音的差异在背景噪声的抑制上采用了频域相关性函数计算频域增益的方式,在喷麦噪声上采用了前置麦克检测加后置麦克补偿的方式,很好的解决单颗麦克风上无法规避的问题。

An Infrared Triggered Far Field Bi-wheat Far Field Speech Recognition Method

【技术实现步骤摘要】
一种红外触发的远场双麦远场语音识别方法
本专利技术属于语音降噪
,涉及一种对远场双麦远场语音识别方法,尤其是一种红外触发的远场双麦远场语音识别方法。
技术介绍
伴随智能电视的普及,语音识别功能也越来越普及,智能语音遥控器作为人和电视语音的交互工具,起到了语音采集,传输的功能,是人机交互的一个重要接口。目前的主流为语音遥控器,主要是单个麦克风对语音进行采集,并通过蓝牙传输到电视端进行语音识别,在背景噪声低或者无噪声的情况下能获得很好的语音识别效果。中国专利201780029587.0公开了一种用于自动语音识别预处理的系统和技术,其采用的技术方案中,首先获得多个音频通道;然后从音频通道去除混响,在去除混响之后,将多个音频通道划分为诸波束。基于噪声水平选择与诸波束中的波束对应的分区。从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。在实际的技术应用中,中国专利201811323511.1公开了一种远程会议语音识别数据传输方法,包括若干个参会终端设备,每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏,所述语音处理模块分别连接声纹训练模块和麦克风阵列,所述中央处理器分别连接存储模块、摄像头、wifi模块、扬声器和显示屏,所述Wifi模块通过互联网连接语音识别服务器。该技术方案不仅构建了远程视频会议,还通过语音识别将会议上发言人的语音进行处理,并转换成文档进行存储,通过声纹识别确认发音人的身份,并对会议中不同的发言人进行身份记录。中国专利201810541703.3公开了一种远场语音识别方法、装置及系统,涉及语音识别
,其主要用于远场语音识别。主要目的在于实现一种能够较好覆盖住宅或建筑物的语音识别方法,提高远场语音识别结果的准确性而专利技术。具体包括:采集预设区域内的语音信息,所述语音信息是由所述预设区域内的用户发出的;识别所述语音信息是否为预设语音信息;若是,则通过无线传输将所述语音信息发送至处理端。综合比较现有技术,通过遥控器进行语音采集作为语音识别的输入,因空中带宽有限,需要对采集的语音进行压缩,通过蓝牙传输到电视端,解压后再输入给语音识别系统进行识别,而语音压缩算法会对采集的语音造成频谱损失,在一定程度上丢失原始语音的信息,也会带来延迟;因而不可避免的会带来对语音识别的影响,增加语音识别的误识别几率。另外,在遥控器语音识别过程中,人必须对着手持麦遥控器,说话时嘴必须对着麦克风进行语音输入,使用中仍然有不方便的地方。
技术实现思路
针对现有技术存在的问题,本专利技术的目的在于提供软硬件结合的更符合智能人机接口应用的一种远场双麦克阵列降噪方法。为实现上述目的,本专利技术采用的技术方案为一种红外触发的远场双麦远场语音识别方法,该方法的具体实现过程如下:1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;2)当需要进行语音识别时,使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;3)对T1和T2进行延迟相加和延迟相减,获得T_ADD和T_SUB。4)分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域信号数据F1和F2。进而获得频域信号能量F1_2和F2_2,由此获得两路频域语音数据。5)对两路频域语音数据进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;6)计算两颗麦克风拾音装置的信号平均能量值X1和X2,然后和稳态噪声估计值进行比较,计算信号噪声能量和参考噪声能量的比值OMAGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q。7)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT。之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。进一步,所述步骤2)中,两颗麦克风分别获取时域语音数据,采样率为16000hz,并分每帧128个语音数据进行处理;输出所述时域语音数据为T1和T2。进一步,在所述步骤3)中,延迟相加T_ADD和延迟相减信号T_SUB的计算公式为:T_ADD=T1+T2T_SUB=T1-T2进一步,所述步骤4)中,输入的是时域语音数据T_ADD和T_SUB,输出是频域语音数据F1、F2和频域能量F1_2,F2_2,公式为:F1=fft(HanningWindow*T_ADD)F2=fft(HanningWindow*T_SUB)F1_2=|F1|2F2_2=|F2|2HanningWindow指的是汉宁窗函数。进一步,所述步骤5)中,语音噪声估计的方式是采用滑动最小递归平均(MCRA)算法对语音的稳态噪声进行估计,具体的实现方式计算频域信号的平方作为信号能量值,公式为:alpha是平滑系数、N1last是1通道上一帧的噪声能量、THRSIGNAL是噪声能量判断阈值、N2last是2通道上一帧的噪声能量。进一步,所述步骤6)中,信号平均能量X1和X2:M是平均窗长度、i是平均序列号。信号和参考噪声能量比值OMEGA的计算公式如下:语音信号存在概率P的计算公式如下:OMEGAhig语音存在阈值、OMEGAlow语音不存在阈值。语音不存在概率Q计算公式如下:Q=1-P进一步,所述步骤6)中,增益函数G的计算公式是:进一步,所述步骤7)中,降噪后的频域语音数据公式为:F1_OPT=G*F1降噪后的时域语音数据公式为:T1_opt=ifft(F1_opt)进一步,所述步骤3)中,加窗运算选择的是汉宁窗,对每帧128个乘以汉宁窗系数,用来防止后面时频转换时发生频谱混叠。本专利技术硬件上结构简单,相比之前的智能语音遥控器仅简单地增加1个远场拾音装置,在使用方式上摆脱了每次拾音都需要手持遥控器对着麦克风讲话的语音识别方式,采用了遥控器按键触发加远场语音识别的方式。软件算法上通过递归平均噪声估计方法对噪声进行消除增强语音信号。附图说明图1为设置于产品远场双麦降噪拾音装置的示意图。图2为本专利技术远场双麦克建造方法流程框架图。图3为远场降噪和语音增强效果。具体实施方式以下参考附图1-3,对本专利技术进行更全面的说明,附图中示出了本专利技术的示例性实施例。然而,本专利技术可以体现为多种不同形式,并不应理解为局限于这里叙述的示例性实施例。而是,提供这些实施例,从而使本专利技术全面和完整,并将本专利技术的范围完全地传达给本领域的普通技术人员。如图1至图3所示,本专利技术一种红外触发的远场双麦远场语音识别方法,其中,在电视端正面设置麦克1和麦克2,采用线性放置的两颗麦克风进行语音采集。当需要进行语音识别时,使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态。语音输入时,2路麦克同时拾音,开始语音增强算法处理。语音增强,背景噪声降噪算法处理主要利用前后2路麦克语音数据的频域相关性对主麦克语音数据的频域增益进行修正:如附图2所示,前置麦克风和后置麦克风分别获取时域语音数据,采样率为16本文档来自技高网
...

【技术保护点】
1.一种红外触发的远场双麦远场语音识别方法,其特征在于:该方法的具体为:1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;2)使用电视遥控器的红外语音按键,控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;3)对T1和T2进行延迟相加和延迟相减,获得主信号增强T_ADD和参考噪声T_SUB的时域语音数据;4)对主信号增强T_ADD和参考噪声T_SUB的时域语音数据采用递归拼接方法进行噪声估计,获得主信号和参考噪声能量的比值OMAGA;5)当主信号和参考噪声能量比小于OMEGAlow时,干扰噪声强,语音不存在;当主信号参考噪声能量比大于OMEGAhigh时,主信号强,语音存在;6)当检测到语音存在,采用增益函数对前置麦克风的频域语音数据进行增益调整,获得降噪后的主信号麦克风的频域语音数据;并最终输出降噪后的时域语音数据。

【技术特征摘要】
1.一种红外触发的远场双麦远场语音识别方法,其特征在于:该方法的具体为:1)在电视端设置两颗麦克风拾音装置,通过两颗麦克风拾音装置实时采集语音数据;2)使用电视遥控器的红外语音按键,控制电视端启动两颗麦克风拾音装置,然后进入语音识别状态,此时两颗麦克风拾音装置同时采集语音数据,分别获取时域语音数据T1和T2;3)对T1和T2进行延迟相加和延迟相减,获得主信号增强T_ADD和参考噪声T_SUB的时域语音数据;4)对主信号增强T_ADD和参考噪声T_SUB的时域语音数据采用递归拼接方法进行噪声估计,获得主信号和参考噪声能量的比值OMAGA;5)当主信号和参考噪声能量比小于OMEGAlow时,干扰噪声强,语音不存在;当主信号参考噪声能量比大于OMEGAhigh时,主信号强,语音存在;6)当检测到语音存在,采用增益函数对前置麦克风的频域语音数据进行增益调整,获得降噪后的主信号麦克风的频域语音数据;并最终输出降噪后的时域语音数据。2.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述方法进一步包括:1)分别对所述主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理,获取频域信号数据F1和F2;进而获得频域信号能量F1_2和F2_2,由此获得两路频域语音数据;2)对两路频域语音数据进行稳态噪声估计,获得两颗麦克风的平均稳态噪声信息的估计值N1和N2;3)计算两颗麦克风拾音装置的信号平均能量值X1和X2,然后和稳态噪声估计值进行比较,计算信号噪声能量和参考噪声能量的比值OMAGA,然后通过OMEGA的值和设定的阈值估计语音存在概率P,进而得到语音不存在概率Q;4)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整,获得调整增益后的频域优化信号F_OPT;之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。3.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法,其特征在于:所述步骤2)中,两颗麦克风分别获取时域语音数据,采样率为16000hz,并分每帧128个语音数据进行处理;输出所述时域...

【专利技术属性】
技术研发人员:杨洋姚嘉高永泽任金平
申请(专利权)人:杭州微纳科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1