具有后端声音活动检测的分布式语音识别设备和方法技术

技术编号:3046193 阅读:196 留言:0更新日期:2012-04-11 18:40
在分布式语音识别系统中,可以向后端模式匹配单元(27)传递用后端声音活动检测器(25)得到的声音活动检测信息。虽然系统的前端并没有得到或传递任何特定的声音活动检测信息,但是声音活动检测器可以使用后端得到的原始信息相对准确地确定是否存在由系统前端抽取的对应的声音识别特征中的声音。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及语音识别,且尤其涉及分布式语音识别。
技术介绍
在本领域语音识别是众所周知的。通常,先语音音频输入数字化,然后进行处理,帮助鉴别包含在语音输入中的特定的口语单词。依照一种方法,从数字化后的语音中抽取所谓的特征,然后与预先存储的模式进行对比实现语音内容的识别。同样众所周知的是通过两个不同的处理单元解析或分布特征抽取和模式匹配行为。例如,欧洲技术标准组织(ETSI)已经于2000年4月在标准ES 201 108 Ver.1.12中提出了一种分布式语音识别系统,其中诸如蜂窝手持设备的便携式设备执行特征抽取功能,并将得到的特征传输给便于完成模式匹配功能的固定端平台。同样众所周知的是,通常情况下当输入可以准确地区分为语音或非语音音频输入的时候,模式匹配可以更加成功地完成。例如,当有足够的信息确定一段给定的音频输入为非语音信号时,该信息可以通过诸如减少对于特定的非语音信号段进行模式匹配行为的方式有效地影响模式匹配行为的功能。不幸的是,声音活动检测的优点在诸如上面提及的ETSI标准中的分布式语音识别系统中并未得到体现。相反,在没有任何声音信号检测信息的情况下将语音内容特征传输给远程的模式匹配平台。附图说明通过下面详细实施方式描述的,可以部分地满足上面的需求,尤其是在结合附图进行研究的时候,其中图1包含现有技术中分布式语音识别系统的前端特征抽取器的描述。图2包含具有依照本专利技术不同实施例配置的声音活动检测的后端模式匹配平台的结构图描述;图3包含依照本专利技术实施例配置的声音活动检测器的结构图。本领域技术人员将意识到,附图中的元素是为了阐述得更加简单和清楚,并不需要按照比例绘制。例如,为了更加全面地展现本专利技术这些不同实施例,商业上可行的实施例中有用或必要的一些普通但公知的组件通常未被图示。具体实施例方式一般而言,依照这些不同的实施例,对多个语音识别的特征进行处理,提供至少一份产生这些语音识别特征的原始信息的近似。随后对这些原始信息进行处理,检测可能对应于语音的部分,从而提供相应的鉴定。然后使用这些语音检测信息帮助语音识别特征的识别过程。在一种实施例中,语音识别特征包括Mel频率倒谱系数。在一种实施例中,通过反离散余弦变换对语音识别特征进行处理,产生用于提供原始信息近似的结果值。如果需要,这些结果值本身可以通过求幂运算进行处理,提供原始信息。在另一种实施例中,对语音识别特征进行处理确定信噪比信息,此信息可以单独或者与其他声音活动信息一起帮助语音识别特征的识别过程。如此配置下,尽管初始时前端特征抽取部分并没有传送声音活动检测信息,分布式语音识别系统中的模式匹配行为可以得益于声音活动检测信息。这样可以提高识别和/或减少功率和/或处理的需求。在说明依照本专利技术的不同实施例之前,首先说明分布式语音识别系统的前端特征抽取器的解说示例。这个示例将为说明一些特定的实施例提供有益的上下文。现在参考图1,诸如语音的音频输入在模数转换器11进行数字化(可选,如本领域所公知的那样,数字化后的语音随后通过直流偏置移除滤波器(未图示))。分帧单元12随后将数字化后的语音解析成对应的帧。帧的大小通常取决于采样频率。例如,早期参考的ETSI分布式语音识别标准采用三种不同的采样频率,即8、11和16KHz。对应这三种采样频率的合适的帧的大小分别为200,256和400个采样点。随后对数(log)能量单元13计算每一帧全部能量的自然对数,提供Log-E参数,该参数包括一个最终提供给分布式语音识别系统后端的语音识别特征。分帧后的信息提供给滤波器和快速傅立叶变换(FFT)单元14。特别地,一个预加重过滤器对语音内容的高频分量进行加强。随后采用同样大小的海明窗(Hamming window)对这些经过预加重的帧进行加窗处理。加窗后的帧在频域上进行快速傅立叶变换。FFT的大小取决于采样频率,即对应于8和11KHz的256点以及对应于16KHz的512点。FFT频率幅值在64Hz和Fs/2之间,其中Fs是采样频率,随后进行Mel滤波15。Mel滤波可以按照如下方式完成。首先采用下面的表达式将上述范围内的频率转换到Mel频率标度Mel(f)=2595.0*log10(1+f700.0).]]>随后将转换后的频率划分为23个相同大小的,半交迭的频带(也叫做通道或栅格)。例如,如果Fs为8000Hz,在64Hz到4000HZ之间的频率范围转换为98.6到2146.1之间的Mel频率标度,并将其划分为23个频带,每个频带宽170.6,频带中心距离为85.3。第一个频带的中心频率位于98.6+85.3=183.9,而最后一个频带的中心频率位于2146.1-85.3=2060.8。这些中心随后进行反变换并取舍到最近的FFT栅格频率。在线性频域中,这23个频带的大小不再一致,且通常每个频带的大小随着频率的增加而增加。然后采用三角加权窗(中心权重为1.0而每端权重接近0.0)将每个频带内的FFT幅值混合在一起。随后Mel滤波器组的输出经过(自然)对数功能单元16。对这23个对数值采用离散余弦变换(DCT)17进行变换,获得13个Mel频率倒谱系数C0到C12。在这个实施例中,舍去了C13到C22的值,也就是说并没有对其进行计算,这是因为它们并不传输或提供给后端模式匹配行为。随后对Mel频率倒谱系数参数和log-E参数进行量化,并在编码器18进行适当编码,提供给作为传输选择的无线发送装置发送给远程后端模式识别平台。上述特征抽取的功能可以很容易地集成在诸如蜂窝手持设备地无线收发平台中。在这样的配置下,提供给手持设备的可听语音能在其中为后续的远程处理过程提取语音识别特征。在上面提及的示例中,语音识别特征包括Mel频率倒谱系数和log-E参数。需要理解的是,这个示例仅仅是为了说明,但是是实现本专利技术的一些实施例的详细实施方式的有益的基础。有多个其他的可供提取的语音识别特征,既可以作为补充,也可以替代上面的特征。本专利技术的范围同样适用于这些可选的实施例。图2提供了适合使用上述前端特征提取平台的后端模式识别平台的结构图的概述。合适的无线接收装置21接收从上述前端平台传输的语音识别特征信息。解码器22对所接收的信息进行解码,恢复出上述的语音识别特征信息。这些信息随后提供给反离散余弦变换单元23,如下面等式描述Di=C023+223Σj=112Cjcos((2i+1)jπ2*23);i=0,1,...,22.]]> (注意上面的等式中倒谱系数C13到C22假定为0)。得到的Di值随后在加幂单元24进行加幂,获得如下的滤波器组输出Fi=exp(Di);i=0,1,...,22。当然,由于前面的切除操作(即舍弃值C13到C22)和Mel频率倒谱值C0到C12的量化,上面获得的滤波器频带输出F0到F22仅仅是在前端计算的原始滤波器组输出的近似值。这些滤波器的输出表示了可用于获取语音识别特征的原始信息的近似。将该原始信息提供给声音活动检测器25,检测器用于检测原始信息是否可能包括至少一定的语音。分割单元26随后使用这个信息,向模式匹配单元27提供一个或多个信号,确定由解码器22向模式匹配单元27提供的片断中哪一个可能包括语音内容。如本文档来自技高网...

【技术保护点】
一种有助于识别语音的方法,包括:-接收多个语音识别特征;-处理多个语音识别特征中的至少一些特征,至少提供对产生多个语音识别特征的原始信息的近似;-对原始信息的至少近似进行处理,检测可能对应于语音的部分并提供语音部分的 相应鉴定;-处理多个语音特识别特征,至少部分地作为鉴定语音部分的功能,用于帮助识别由至少一些语音识别特征表示的语音内容。

【技术特征摘要】
【国外来华专利技术】US 2002-8-9 10/215,8101.一种有助于识别语音的方法,包括-接收多个语音识别特征;-处理多个语音识别特征中的至少一些特征,至少提供对产生多个语音识别特征的原始信息的近似;-对原始信息的至少近似进行处理,检测可能对应于语音的部分并提供语音部分的相应鉴定;-处理多个语音特识别特征,至少部分地作为鉴定语音部分的功能,用于帮助识别由至少一些语音识别特征表示的语音内容。2.如权利要求1所述的方法,其中,接收多个语音识别特征包括通过无线通道接收多个语音识别特征。3.如权利要求1所述的设备,其中,接收多个语音识别特征包括接收包括至少一个Mel频率倒谱系数的多个语音识别特征。4.如权利要求3所述的方法,其中,接收包括至少一个Mel频率倒谱系数的多个语音识别特征包括接收多个Mel频率倒谱系数。5.如权利要求4所述的方法,其中,接收多个Mel频率倒谱系数包括接收对应原始信息的每个采样的至少13个Mel频率倒谱系数。6.如权利要求1所述的方法,其中,处理多个语音识别特征中的至少一些特征,至少提供对来自于多个语音识别特征的原始信息的近似包括采用反离散余弦变换的方式处理多个语音识别特征的至少一些特征,用以提供多个结果值。7.如权利要求6所述的方法,其中,采用反离散余弦变化的方法处理多个语音识别特征中的至少一些特征进一步包括采用加幂的方式处理至少一个结果值。8.如权利要求1所述的方法,进一步包括对原始信息的至少近似进行处理,确定可能对应于产生多个语音识别特征的语音的信噪比值。9.如权利要求1所述的方法,其中,处理多个语音特识别特征,至少部分地作为鉴定语音部分的功能,用于帮助识别由至少一些语音识别特征表示的语音内容的步骤进一步包括处理多个语音识别特征,至少部分地作为鉴定语音部分和信噪比值的功能,用于帮助识别由至少一些语音识别特征表示的语音内容。10.一种用于帮助分布式语音识别的设备,该设备包括-声音活动检测器,该检测器具有输入,连接以接收源自原始信息的语音识别特征,检测器还具有至少第一个输出,提供语音检测信号来鉴定可能对应语音的原始信息的至少...

【专利技术属性】
技术研发人员:滕卡西拉马巴德兰
申请(专利权)人:摩托罗拉公司特拉华州注册
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1