【技术实现步骤摘要】
本专利技术涉及语音信号处理,尤其涉及用于检测语音片段的方法和装置。
技术介绍
在涉及了包括语音分析、合成、语音识别、语音译码、语音编码等的语音信号处理的
中精确检测语音信号的语音片段是非常重要的。但是在用来检测语音片段的典型检测器的情况下,所述设备的结构复杂、计算量大,并且不能执行实时处理。换句话说,例如,典型的语音片段检测方法包括能量和零交叉速率检测方法、通过获取由名称标识的片段的逆谱系数以及当前片段的逆谱距离来确定语音信号存在的方法、通过测量话音和噪声信号间的相干性来确定语音信号存在的方法等等。这些典型的语音信号检测方法都是有问题的,例如,检测语音片段的性能在实际应用中并不突出、所述设备的结构复杂、如果SNR(信噪比)较低则很难应用所述方法以及如果通过外部环境突然改变检测到背景噪声则很难检测到语音片段。因此,在应用诸如通信系统、移动通信系统、语音识别系统之类的语音信号处理的
中,需要一种用于语音片段检测的方法,使得就算是在背景噪声突然改变、用于语音片段检测的计算量较小并且期望进行实时处理的情况下,话音片段检测的性能也能十分突出。
技术实现思路
因此,本专利技术的目标在于提供一种用于检测语音信号处理设备的语音片段的方法和装置,其中所述设备即使在嘈杂环境中也能精确检测语音片段、对于语音片段检测所需要的计算量较小,并且具有实时处理的能力。为了完成上述目标,根据本专利技术提供了用于检测语音信号处理设备的语音片段的装置,所述装置包括用于接收输入信号的输入部分;用于控制语音片段检测全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将输 ...
【技术保护点】
一种用于检测语音信号的语音片段的装置,所述装置包括:用于接收输入信号的输入部分; 用于控制语音片段检测的全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。
【技术特征摘要】
KR 2004-11-20 10-2004-00955201.一种用于检测语音信号的语音片段的装置,所述装置包括用于接收输入信号的输入部分;用于控制语音片段检测的全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。2.如权利要求1所述的装置,其特征在于,还包括用于输入指示语音片段检测的控制信号的用户界面部分;用于输出检测到的语音片段的输出部分;以及用于存储语音片段检测操作所需程序和数据的存储器部分。3.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及车辆噪声,那么将所述临界频带划分成的区域数目就是2。4.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及步行时产生的外围噪声,那么将所述临界频带划分成的区域数目就是3或4。5.如权利要求1所述的装置,其特征在于,所述临界频带划分部分根据噪声环境的类型将所述临界频带分成不同数目的区域。6.如权利要求1所述的装置,其特征在于,所述信号处理部分检查如果请求语音片段检查,用户请求是否要设置临界频带划分成的区域数目,并且根据用户所选的噪声环境类型设置声临界频带划分成的区域数目。7.如权利要求1所述的装置,其特征在于,信号处理部分为了初始阶段特定帧输入数目而控制按区域计算能量对数的初始平均值和初始标准差的操作。8.如权利要求7所述的装置,其特征在于,初始阶段帧输入的数目是4或5。9.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是语音片段时,所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。10.如权利要求9所述的装置,其特征在于,由以下数学表达式按区域更新信号阈值Tsk=μsk+αsk*δsk其中μ是所述帧第k个区域的语音对数能量的平均值,δ是所述帧第k个区域的语音对数能量的标准差的值,α是滞后值,Tsk是信号阈值,而k的最大值是所述帧划分区域的数目。11.如权利要求9所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δsk(t)=root([Ek2]mean(t)-[μsk(t)]2)]]>其中μsk(t-1)是前一帧第k个区域的语音对数能量的平均值,Ek是所述帧(当前帧)第k个区域的语音对数能量,δsk(t)是所述帧第k个区域的语音对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。12.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是噪声片段时,所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。13.如权利要求12所述的装置,其特征在于,由以下数学表达式按区域算出噪声阈值Tnk=μnk+βnk*δnk其中μ是所述帧第k个区域的噪声对数能量的平均值,δ是所述帧第k个区域的噪声对数能量的标准差的值,βnk是所述帧第k个区域的滞后值,Tnk是噪声阈值,而k的最大值是所述帧划分区域的数目。14.如权利要求12所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δnk(t)=root([Ek2]mean(t)-[μnk(t)]2)]]>其中μnk(t-1)是前一帧第k个区域的噪声对数能量的平均值,Ek是所述帧(当前帧)第k个区域的噪声对数能量,δnk(t)是所述帧第k个区域的噪声对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。15.如权利要求1所述的装置,其特征在于,片段鉴别部分为所述输入信号的所述帧的每一区域计算对数能量,并且如果存在至少一个具有的对数能量大于信号阈值的区域,就将该帧鉴别为语音片段。16.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且如果不存在具有的对数能量大于信号阈值的区域但是存在至少一个具有的对数能量小于噪声阈值的区域,就将该帧鉴别为噪声片段。17.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且在不存在具有的对数能量大于信号阈值的区域并且不存在具有的对数能量小于噪声阈值的区域的情况下,对于所述帧应用前一帧鉴别出的片段。18.如权利要求1所述的装置,其特征在于,所述片段鉴别部分通过如下表达式鉴别帧的片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鉴别所述帧为语音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鉴别所述帧为噪声片段ELSE,鉴别所述片段被前一帧所鉴别出的片段其中E是每一区域的对数能量,Ts是用于每一区域的信号阈值,Tn是用于每一区域的噪声阈值,而k是所述帧划分区域的数目。19.一种用于检测语音信号的语音片段的装置,所述装置包括用于接收指示语音片段检测的用户控制命令的用户界面部分;用于根据所述用户控制命令接收输入信号的输入部分;以及处理器,它用于通过所述临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域的对数能量与每一区域信号阈值和噪声阈值,并且根据比较结果鉴别每一帧的语音片段是语音片段还是噪声片段。20.如权利要求19所述的装置,其特征在于,所述处理器检查在接收到用户控制命令时是否需要对所述帧划分区域的数目进行设置,并且根据用户所选的噪声环境类型设置所述临界频带划分成的区域数目。21.如权利要求19所述的装置,其特征在于,所述处理器为了初始阶段帧输入的预定数目而计算用于每一区域的对数能量的初始平均值和初始标准差,并且通过使用所述初始平均值和初始标准差计算初始信号阈值和初始噪声阈值。22.如权利要求19所述的装置,其特征在于,所述处理器通过如下表达式鉴别当前帧是语音片段还是噪声...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。