用于在语音信号处理中检测语音片段的方法和装置制造方法及图纸

技术编号:3045800 阅读:194 留言:0更新日期:2012-04-11 18:40
一种用于检测语音信号处理设备的语音片段的方法和装置。根据噪声的频率特性将临界频带划分为特定数目的区域,按每一帧的区域设置自适应信号阈值和自适应噪声阈值,并且通过比较按每一帧的区域算出的所述对数能量与按区域设置的信号阈值和噪声阈值来确定每一帧是语音片段还是噪声片段。这样,即使在噪声环境内也可通过使用较小操作量而快速并精确地检测语音片段。

【技术实现步骤摘要】

本专利技术涉及语音信号处理,尤其涉及用于检测语音片段的方法和装置。
技术介绍
在涉及了包括语音分析、合成、语音识别、语音译码、语音编码等的语音信号处理的
中精确检测语音信号的语音片段是非常重要的。但是在用来检测语音片段的典型检测器的情况下,所述设备的结构复杂、计算量大,并且不能执行实时处理。换句话说,例如,典型的语音片段检测方法包括能量和零交叉速率检测方法、通过获取由名称标识的片段的逆谱系数以及当前片段的逆谱距离来确定语音信号存在的方法、通过测量话音和噪声信号间的相干性来确定语音信号存在的方法等等。这些典型的语音信号检测方法都是有问题的,例如,检测语音片段的性能在实际应用中并不突出、所述设备的结构复杂、如果SNR(信噪比)较低则很难应用所述方法以及如果通过外部环境突然改变检测到背景噪声则很难检测到语音片段。因此,在应用诸如通信系统、移动通信系统、语音识别系统之类的语音信号处理的
中,需要一种用于语音片段检测的方法,使得就算是在背景噪声突然改变、用于语音片段检测的计算量较小并且期望进行实时处理的情况下,话音片段检测的性能也能十分突出。
技术实现思路
因此,本专利技术的目标在于提供一种用于检测语音信号处理设备的语音片段的方法和装置,其中所述设备即使在嘈杂环境中也能精确检测语音片段、对于语音片段检测所需要的计算量较小,并且具有实时处理的能力。为了完成上述目标,根据本专利技术提供了用于检测语音信号处理设备的语音片段的装置,所述装置包括用于接收输入信号的输入部分;用于控制语音片段检测全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将输入信号的临界频带分成预定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据输入信号每一区域的对数能量鉴别当前帧(frame)是噪声片段还是语音片段的片段鉴别部分。为了完成上述目标,根据本专利技术提供了用于检测语音信号处理设备的语音片段的装置,所述装置包括用于接收指示语音片段检测的用户控制命令的用户界面部分;用于根据所述用户控制命令接收输入信号的输入部分;以及处理器,它用于依据临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、按区域自适应地计算信号阈值以及噪声阈值、自适应地比较每一区域对数能量与每一区域信号阈值和噪声阈值,并且根据比较的结果鉴别每一帧的语音片段是语音片段还是噪声片段。为了完成上述目标,根据本专利技术提供了用于检测语音信号处理设备的语音片段的方法,所述方法包括如下步骤根据噪声的频率特性将输入信号的临界频带划分成预定数目的区域;比较按区域不同地设置的自适应阈值以及按区域计算的对数能量,并且确定输入信号是否是语音片段。用于检测语音片段的方法还包括通过使用按区域并且根据确定结果算出的对数能量的平均值和标准差对自适应阈值进行更新的步骤。自适应阈值包括自适应信号阈值和自适应噪声阈值。为了完成上述目标,根据本专利技术提供了用于检测语音信号处理设备的语音片段的方法,所述方法包括如下步骤按临界频带的帧使所述输入信号格式化;根据噪声的频率特性将当前帧划分成预定数目的区域;比较按当前帧区域的信号阈值和噪声阈值和按区域算出的对数能量;确定当前帧是否是语音片段;并且通过使用每个区域的对数能量选择性地更新所述信号阈值和噪声阈值。附图说明为了进一步理解本专利技术,作为说明书一部分的附图示出了本专利技术的实施例并且连同说明一起解释了本专利技术的原理。在附图中图1是根据本专利技术示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图;图2是根据本专利技术示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图;图3是根据本专利技术示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图;图4是根据本专利技术示出了用于语音片段检测的典型帧结构的视图。具体实施例方式通常情况下,人类的听力的频率范围大约是从20Hz到20,000Hz,并且此范围被称为临界频带。该临界频带可根据诸如熟练程度和物理残障情况扩展或缩减。上述临界频带是考虑了人类听觉特征的频带。在本专利技术中,为了使用人类听觉特征,通过考虑各种噪声的频率特性,将临界频带划分成特定数目的区域,为每一区域自适应地算出信号阈值和噪声阈值,并且通过比较每一区域的对数能量与每一区域的信号阈值和噪声阈值来鉴别每一帧是语音片段还是噪声片段。图1是根据本专利技术示出了用于检测语音信号处理设备的语音片段的典型方法的配置实例的视图。根据本专利技术的用于检测语音信号处理设备的语音片段的装置可以包括用于输入语音信号的输入部分100;用于控制语音片段检测全部操作的信号处理部分110;用于在信号处理部分110的控制下根据噪声的频率特性将输入信号的临界频带划分成预定数目区域的临界频带划分部分130;用于在信号处理部分110的控制下按划分的区域计算自适应信号阈值的信号阈值计算部分170;用于在信号处理部分110的控制下按划分的区域计算自适应噪声阈值的噪声阈值计算部分160;以及用于根据输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分150。所述语音信号可包括噪声成分。用于检测语音片段的装置还包括用于输入指示语音片段检测的控制信号的用户界面部分180;用于输出检测到语音片段的输出部分140;以及用于存储语音片段检测操作所需程序和数据的存储器部分120。所述用户界面180可包括键盘和其他类型的输入工具。将在以下描述根据本专利技术配置的用于检测语音信号处理设备的语音片段的装置的操作。在这里的语音信号处理设备可包括提供了语音片段检测功能的各种设备,诸如具有语音识别功能的移动终端和语音识别设备等等。在本专利技术中,根据各种类型噪声的频率特性将临界频带划分成特定数目的区域、比较按区域算出的对数能量与按区域设置的信号阈值和噪声阈值,并且根据比较的结果检测语音片段。例如,如果用户位于车辆环境中,则因为噪声多数分布在低频带,所以根据本专利技术以1-2KHz的边界将临界频带划分成两个区域。如果用户正在步行,那么就根据本专利技术将临界频带划分成三至四个区域。由此在本专利技术中,对临界频带划分的区域数目可以根据噪声的频率特性变化。因此本专利技术可以根据背景噪声的频率特性进一步改善语音片段检测性能。图2是根据本专利技术示出了根据噪声的频率特性用于确定临界频带的划分区域数目的典型方法的视图。在期望检测语音片段的情况下(S11),所述语音信号处理设备检查用户是否为了根据噪声的频率特性设置划分区域的数目而请求设置噪声环境的类型。当用户请求设置噪声环境的类型时(S13),所述语音信号处理设备就输出噪声环境的类型(S15)。所述噪声环境的类型可包括车辆环境、步行环境等等。例如,当用户在车内时,用户可在语音信号处理设备提供的各选项中选择车辆环境。当用户选择了噪声环境时(S17),语音信号处理设备就对应于所选的噪声环境设置区域的数目(S19)。一旦设置了划分区域的数目,语音信号处理设备就根据上述用于语音片段检测的划分区域设置数目对临界频带作出划分。图3是根据本专利技术示出了用于检测语音信号处理设备的语音片段的典型方法实例的视图。图4是根本文档来自技高网...

【技术保护点】
一种用于检测语音信号的语音片段的装置,所述装置包括:用于接收输入信号的输入部分; 用于控制语音片段检测的全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。

【技术特征摘要】
KR 2004-11-20 10-2004-00955201.一种用于检测语音信号的语音片段的装置,所述装置包括用于接收输入信号的输入部分;用于控制语音片段检测的全部操作的信号处理部分;用于在信号处理部分的控制下根据噪声的频率特性将所述输入信号的临界频带分成特定数目区域的临界频带划分部分;用于在信号处理部分的控制下通过划分的区域计算自适应信号阈值的信号阈值计算部分;用于在信号处理部分的控制下通过划分的区域计算自适应噪声阈值的噪声阈值计算部分;以及用于根据所述输入信号每一区域的对数能量鉴别当前帧是噪声片段还是语音片段的片段鉴别部分。2.如权利要求1所述的装置,其特征在于,还包括用于输入指示语音片段检测的控制信号的用户界面部分;用于输出检测到的语音片段的输出部分;以及用于存储语音片段检测操作所需程序和数据的存储器部分。3.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及车辆噪声,那么将所述临界频带划分成的区域数目就是2。4.如权利要求1所述的装置,其特征在于,如果噪声的频率特性涉及步行时产生的外围噪声,那么将所述临界频带划分成的区域数目就是3或4。5.如权利要求1所述的装置,其特征在于,所述临界频带划分部分根据噪声环境的类型将所述临界频带分成不同数目的区域。6.如权利要求1所述的装置,其特征在于,所述信号处理部分检查如果请求语音片段检查,用户请求是否要设置临界频带划分成的区域数目,并且根据用户所选的噪声环境类型设置声临界频带划分成的区域数目。7.如权利要求1所述的装置,其特征在于,信号处理部分为了初始阶段特定帧输入数目而控制按区域计算能量对数的初始平均值和初始标准差的操作。8.如权利要求7所述的装置,其特征在于,初始阶段帧输入的数目是4或5。9.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是语音片段时,所述信号阈值计算部分为该帧的每一部分计算所述语音对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。10.如权利要求9所述的装置,其特征在于,由以下数学表达式按区域更新信号阈值Tsk=μsk+αsk*δsk其中μ是所述帧第k个区域的语音对数能量的平均值,δ是所述帧第k个区域的语音对数能量的标准差的值,α是滞后值,Tsk是信号阈值,而k的最大值是所述帧划分区域的数目。11.如权利要求9所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δsk(t)=root([Ek2]mean(t)-[μsk(t)]2)]]>其中μsk(t-1)是前一帧第k个区域的语音对数能量的平均值,Ek是所述帧(当前帧)第k个区域的语音对数能量,δsk(t)是所述帧第k个区域的语音对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。12.如权利要求1所述的装置,其特征在于,当由片段鉴别部分鉴别出相应帧是噪声片段时,所述信号阈值计算部分为该帧的每一部分计算所述噪声对数能量的平均值和标准差,并且通过使用算出的平均值和标准差来更新所述信号阈值。13.如权利要求12所述的装置,其特征在于,由以下数学表达式按区域算出噪声阈值Tnk=μnk+βnk*δnk其中μ是所述帧第k个区域的噪声对数能量的平均值,δ是所述帧第k个区域的噪声对数能量的标准差的值,βnk是所述帧第k个区域的滞后值,Tnk是噪声阈值,而k的最大值是所述帧划分区域的数目。14.如权利要求12所述的装置,其特征在于,由如下数学表达式算出所述平均值和标准差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δnk(t)=root([Ek2]mean(t)-[μnk(t)]2)]]>其中μnk(t-1)是前一帧第k个区域的噪声对数能量的平均值,Ek是所述帧(当前帧)第k个区域的噪声对数能量,δnk(t)是所述帧第k个区域的噪声对数能量的标准差的值,γ是加权值,而k的最大值是所述帧划分区域的数目。15.如权利要求1所述的装置,其特征在于,片段鉴别部分为所述输入信号的所述帧的每一区域计算对数能量,并且如果存在至少一个具有的对数能量大于信号阈值的区域,就将该帧鉴别为语音片段。16.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且如果不存在具有的对数能量大于信号阈值的区域但是存在至少一个具有的对数能量小于噪声阈值的区域,就将该帧鉴别为噪声片段。17.如权利要求1所述的装置,其特征在于,片段鉴别部分为述输入信号的所述帧的每一区域计算对数能量,并且在不存在具有的对数能量大于信号阈值的区域并且不存在具有的对数能量小于噪声阈值的区域的情况下,对于所述帧应用前一帧鉴别出的片段。18.如权利要求1所述的装置,其特征在于,所述片段鉴别部分通过如下表达式鉴别帧的片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鉴别所述帧为语音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鉴别所述帧为噪声片段ELSE,鉴别所述片段被前一帧所鉴别出的片段其中E是每一区域的对数能量,Ts是用于每一区域的信号阈值,Tn是用于每一区域的噪声阈值,而k是所述帧划分区域的数目。19.一种用于检测语音信号的语音片段的装置,所述装置包括用于接收指示语音片段检测的用户控制命令的用户界面部分;用于根据所述用户控制命令接收输入信号的输入部分;以及处理器,它用于通过所述临界频带的帧使输入信号格式化、根据噪声的频率特性将每个帧的临界频带划分成预定数目的区域、自适应地按区域计算信号阈值以及噪声阈值、自适应地比较每一区域的对数能量与每一区域信号阈值和噪声阈值,并且根据比较结果鉴别每一帧的语音片段是语音片段还是噪声片段。20.如权利要求19所述的装置,其特征在于,所述处理器检查在接收到用户控制命令时是否需要对所述帧划分区域的数目进行设置,并且根据用户所选的噪声环境类型设置所述临界频带划分成的区域数目。21.如权利要求19所述的装置,其特征在于,所述处理器为了初始阶段帧输入的预定数目而计算用于每一区域的对数能量的初始平均值和初始标准差,并且通过使用所述初始平均值和初始标准差计算初始信号阈值和初始噪声阈值。22.如权利要求19所述的装置,其特征在于,所述处理器通过如下表达式鉴别当前帧是语音片段还是噪声...

【专利技术属性】
技术研发人员:禹敬浩
申请(专利权)人:LG电子株式会社
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1