检校语音检测结果的方法及装置制造方法及图纸

技术编号:16646711 阅读:24 留言:0更新日期:2017-11-26 22:01
本发明专利技术提出的检校语音检测结果的方法及装置,其方法包括以下步骤:若当前帧检测结果为存在语音活动,则计算检测结果缓冲区内检测结果的统计值;将所述统计值与预设阈值比较,获得判断结果。本发明专利技术提出的一种检校语音检测结果的方法及装置,考虑了语音一般具有连贯性的特点,计算当前帧的检测结果后,结合前几帧的检测结果获得统计值,将统计值与预设阈值比较,判断当前帧的检测结果是否误判,提高了语音检测准确率。

Method and apparatus for calibration of speech detection results

Method and apparatus for calibration of speech detection results provided by the invention, the method comprises the following steps: if the current frame for voice activity detection results, statistical calculation results in the buffer test value; the statistical value and the preset threshold comparison, obtained results. A method and a device for calibration of speech detection results provided by the invention, considering the characteristics of speech generally has the coherence of the detection results of the computation of the current frame after combined detection of previous frames results statistics, statistical value with a preset threshold value, judging whether the current frame detection error, improve the accuracy the rate of speech detection.

【技术实现步骤摘要】
检校语音检测结果的方法及装置
本专利技术涉及到语音识别领域,特别是涉及到一种检校语音检测结果的方法及装置。
技术介绍
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。201510119374.X公开了一种语音检测方法及装置,方法具体包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。该方案可以节省语音检测的时间。然而,该方法采用的是计算出的倒谱距离与预设阈值比较,虽然预设了不同距离下的阈值,但由于实际环境的复杂性,导致预设阈值往往无法在具体场景中应用,进而导致语音识别正确率下降。同时,该方案也没有对语音检测结果检校的过程,容易产生误检的情况。
技术实现思路
本专利技术的主要目的为提供一种检校语音检测结果的方法及装置,旨在提高语音检测准确率。本专利技术所指的声音信号,是指数字音频数据,即先通过声波转换电路将声波转换为模拟音频信号,再通过模拟数字转换器将上述模拟音频信号转换得到的数字音频数据。本专利技术提出一种检校语音检测结果的方法,包括以下步骤:当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;将所述统计值与预设阈值比较,获得判断结果。优选地,所述当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值之前,包括:计算所述当前帧检测结果;将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区。优选地,所述计算所述当前帧检测结果,包括:计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。优选地,所述更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,包括:将所述当前帧检测结果加入上一帧检测结果缓冲区后,将上一帧检测结果缓冲区内最早一帧的检测结果踢出,获得所述当前帧检测结果缓冲区。优选地,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。优选地,所述将所述当前帧检测结果加入上一帧检测结果缓冲区,所述检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,以数学形式表示为:Q=[Q′(:,2:LB);QFrame]其中,Q为当前帧检测结果缓冲区,Q′为上一帧检测结果缓冲区,QFrame为当前帧检测结果。优选地,所述统计值由以下公式求得:其中,QM为统计值,LI为检测结果缓冲区中检测结果的个数,Q(j)为检测结果缓冲区中第j个检测结果。优选地,所述预设阈值为δLI,所述将所述统计值与预设阈值比较,获得判断结果包括:将QM与δLI比较,若QM<δLI,则表明当前帧检测结果为误检,所述δ的取值范围为[0.1,0.15)、0.15或(0.15,0.3]。优选地,所述将所述统计值与预设阈值比较,获得判断结果之后,还包括:更新所述听觉阈值,所述更新后的听觉阈值可由以下公式求得:其中,θT(i)为更新后的听觉阈值,FB为听觉特征缓冲区内多个听觉特征组成的矩阵,所述听觉特征缓冲区包括所述听觉特征。优选地,所述第一维度参数以V(1)表示,其由以下公式求得:其中,γ(k)为先验信噪比,k为频率,K为频带整体的数量;所述第二维度参数以V(2)表示,其由以下公式求得:其中,ε(k)为后验信噪比;所述第三维度参数以V(3)表示,其由以下公式求得:其中,LW代表窗长,LT代表起始样本点,函数y为时域混合语音数据,j为时间变量。优选地,所述先验信噪比γ(k)由以下公式求得:其中,1为时间帧坐标,Y(l,k)为混合语音频谱,ΦV(k)代表噪音信号的功率谱密度。优选地,所述后验信噪比ε(k)由以下公式求得:其中,β为平滑因子,β为取值范围为0.6~0.9,为估算语音频谱,Max函数表示选择两个变量中的最大值。优选地,β为0.75。优选地,所述时域信号以y(t)表示,其由以下公式求得:其中,x(t)为带混响语音信号,ν(t)为背景噪声,h(τ)为混响冲击响应信号,s(t-τ)为无混响语音信号。优选地,所述计算先验信噪比γ(k)和后验信噪比ε(k)之前,还包括,对语音参数进行初始化,所述语音参数包括噪音功率谱密度ΦV(k)、观测信号功率谱密度ΦY(k)、估算语音频谱先验信噪比γ(k)和后验信噪比ε(k),初始化过程如下:设定前LI时间帧没有语音活动,则γ(k)=1,ε(k)=κ,k=1,2,...,K其中,K为频带整体的数量,l为时间帧坐标,Y(l,k)为混合语音频谱,κ为衰减因子,ΦV(k)代表噪音信号的功率谱密度,ΦY(k)代表观测信号的功率谱密度,为估算语音频谱。优选地,所述对语音参数进行初始化之后,还包括,根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值,所述观测信号功率谱密度估计值可由以下公式求得:Φ′Y(k)=αΦY(k)+(1-α)|Y(l,k)|2其中,α为平滑因子,取值范围为0.95~0.995。优选地,所述根据前一帧的观测信号功率谱密度,平滑得到下一帧的观测信号功率谱密度估计值之后,还包括,计算噪音功率谱自适应更新步长,所述噪音功率谱自适应更新步长可由以下公式求得:其中,将平滑因子α作为固定步长。优选地,所述计算噪音功率谱自适应更新步长之后,还包括,根据所述噪音功率谱自适应更新步长,更新噪音功率谱,所述噪音功率谱可由以下公式求得:ΦV(k)=αV(k)Φ′V(k)+(1-αV(k))|Y(l,k)|2。优选地,所述听觉阈值以θT(i)表示,i=1,2,3,θT(1)与所述第一维度参数相对应,θT(2)与所述第二维度参数相对应,θT(3)与所述第三维度参数相对应,θT(i)由以下公式求得:θ′T(i)为前一帧的听觉阈值,FB为特征缓冲区矩阵,所述特征缓冲区矩阵由LI个听本文档来自技高网
...
检校语音检测结果的方法及装置

【技术保护点】
一种检校语音检测结果的方法,其特征在于,包括以下步骤:当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;将所述统计值与预设阈值比较,获得判断结果。

【技术特征摘要】
1.一种检校语音检测结果的方法,其特征在于,包括以下步骤:当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值;将所述统计值与预设阈值比较,获得判断结果。2.根据权利要求1所述的检校语音检测结果的方法,其特征在于,所述当前帧检测结果为存在语音活动,计算当前帧检测结果缓冲区内检测结果的统计值之前,包括:计算所述当前帧检测结果;将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果缓冲区包括多个在前帧的检测结果,并更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区。3.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述计算所述当前帧检测结果,包括:计算当前帧声音信号的听觉特征,所述听觉特征包括与先验信噪比相关的第一维度参数、与后验信噪比相关的第二维度参数、与时域信号相关的第三维度参数;将所述第一维度参数、第二维度参数、第三维度参数与各自对应的听觉阈值比较,获得所述当前帧检测结果。4.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述更新所述上一帧检测结果缓冲区,获得所述当前帧检测结果缓冲区,包括:将所述当前帧检测结果加入检测结果缓冲区后,将上一帧检测结果缓冲区内最早一帧的检测结果踢出,获得所述当前帧检测结果缓冲区。5.根据权利要求1所述的检校语音检测结果的方法,其特征在于,所述统计值包括所有检测结果的总和或均值,或各检测结果按不同权重计算获得的计算结果。6.根据权利要求2所述的检校语音检测结果的方法,其特征在于,所述将所述当前帧检测结果加入上一帧检测结果缓冲区,所述上一帧检测结果...

【专利技术属性】
技术研发人员:蔡钢林
申请(专利权)人:深圳永顺智信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1