当前位置: 首页 > 专利查询>诺基亚公司专利>正文

语音识别系统中的语音结束检测技术方案

技术编号:3045387 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及语音识别系统,特别涉及在该系统中配置语音结束检测。该系统的语音识别器被配置为,确定从所接收的语音数据确定的识别结果是否稳定。该语音识别器被配置为,处理与所接收的语音数据帧相关的最佳状态得分和最佳令牌得分的值,用于语音结束检测。此外,该语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别系统,并且特别涉及在语音识别系统中的语音结束(end of utterance)检测。
技术介绍
近年来已经开发了不同的语音识别应用,例如,用于汽车用户接口和移动终端(例如移动电话、PDA设备和便携电脑)。对于移动终端的已知应用包括通过对着移动终端的麦克风大声说出他/她的名字,以及根据与最对应于来自用户的语音输入的模型相关联的姓名/号码,来发起对所述号码的呼叫,从而给特定的人打电话。然而,目前依赖于说话者的方法一般要求对语音识别系统进行训练以识别每个字的发音。不依赖于说话者的语音识别改善了语音控制用户接口的可用性,这是因为可以省略所述训练阶段。在不依赖于说话者的字识别中,可以预先存储字的发音,这样通过预定义的发音(例如音素序列)可以识别用户所说的字。大多数的语音识别系统使用维特比(Viterbi)搜索算法,该算法通过隐马尔科夫模型(HMMs)网络建立搜索,并对于每一帧或时间步长维持在该网络中的每一阶段处的最可能路径得分。语音结束(EOU)检测是与语音识别相关的一个重要方面。EOU检测的目标是最可靠、最快地检测讲话的结尾。当完成了EOU检测时,语音识别器就能停止解码,并且用户得到识别的结果。通过工作良好的EOU检测,也可以提高识别速率,这是因为语音之后的噪声部分被忽略了。为EOU检测已经开发了各种不同的技术。例如,EOU检测可以基于检测到的能量的级别、检测到的过零值,或检测到的熵。然而,这些方法总是被证明对于处理能力有限的受限设备(如移动电话)来说太过复杂。如果在移动设备中使用语音识别,那么收集用于EOU检测的信息的很自然的位置是语音识别器的解码器部分。对于每个时间标(帧)的识别结果可以随着识别过程的进行而前移。当预定数目的帧产生了(基本上)相同的识别结果时,可以检测到EOU并且可以停止解码。这种EOU检测方法是由Takeda K.、Kuroiwa S.、Naito M.和Yamamoto S.于1995年5月在马德里的ESCA.EuroSpeech 1995上发表的文章“语音激励电话扩展系统中的从上到下的语音检测和N-Best语义搜索”中提出的。这种方法在这里是指“识别结果的稳定性检验”。然而,在某些情况下,这种方法会失效如果在接收到语音数据前有足够长的静音部分,那么该算法将发送EOU检测信号。因此,可能甚至在用户说话之前就错误地检测到语音结束。过早的EOU检测可能是由姓名/字之间的延时导致的,或者甚至是由于当使用了基于稳定性检验的EOU检测时在某些情况下的说话过程中的延时导致的。在嘈杂的环境中,有可能出现这样的情况,即这种EOU检测算法根本检测不到EOU。
技术实现思路
目前提供了一种用于EOU检测的增强的方法和装置。本专利技术的不同方面包括语音识别系统、方法、电子设备,和计算机程序产品,其特征由独立权利要求公开的内容陈述。本专利技术的一些实施例在从属权利要求中公开了。根据本专利技术的一个方面,数据处理设备的语音识别器被配置为,确定从接收到的语音数据确定的识别结果是否稳定。进一步地,所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分(best token score)的值,用于语音结束检测。如果所述识别结果是稳定的,则所述语音识别器被配置为,基于所述最佳状态得分和最佳令牌得分的处理,来确定是否检测到语音结束。所述最佳状态得分通常指,在用于语音识别的状态模型的许多状态中,具有最大概率的状态的得分。所述最佳令牌得分通常指,在用于语音识别的许多令牌中的令牌的最大概率。可以为包含语音信息的每一帧更新这些得分。用这种方式来配置语音结束检测的优点是,可以减少甚至避免与语音数据接收前的静音时段、语音段之间的时延、说话期间的EOU检测,以及遗漏的(例如,噪声导致的)EOU检测。该专利技术还提供了一种用于EOU检测的在计算上很经济的方法,因为可能使用预先计算的状态和令牌得分。因此,该专利技术非常适用于小型便携设备,例如移动电话和PDA设备。根据本专利技术的实施例,通过累加预定数目的帧的最佳状态得分值,得到最佳状态得分总值。如果所述识别结果稳定,那么将最佳状态得分总值与预定的门限总值相比较。如果所述最佳状态得分总值不超过所述门限总值,则语音结束检测被确定。该实施例至少可以减少上述的错误,特别有助于防止有关语音数据接收前的静音时段的错误,以及有关在说话期间的EOU检测的错误。根据本专利技术的实施例,反复确定最佳令牌得分值,并且基于至少两个最佳令牌得分值,计算最佳令牌得分值的斜率。将所述斜率与预定的门限斜率值相比,如果所述斜率不超过所述门限斜率值,则语音结束检测被确定。该实施例至少可以减少与语音数据接收前的静音时段相关的错误,以及与字间的长时间停顿相关的错误。该实施例实质上有助于(且比上一个实施例更有效)防止与说话期间的EOU检测相关的错误,这是因为最佳令牌得分斜率很能容忍噪声。附图说明下面将通过参考附图的优选实施例详细描述本专利技术,其中,图1示出了一个数据处理设备,其中,可以实现根据本专利技术的语音识别系统;图2示出了根据本专利技术的某些方面的方法的流程图;图3a、3b和3c是示出了根据本专利技术的一个方面的某些实施例的流程图;图4a和4b是示出了根据本专利技术的一个方面的某些实施例的流程图; 图5示出了根据本专利技术的一个方面的实施例的流程图;图6示出了本专利技术的实施例的流程图。具体实施例方式图1示出了根据本专利技术实施例的数据处理设备(TE)的简化结构。所述数据处理设备(TE)可以是,例如,移动电话、PDA设备或其它类型便携电子设备,或者其部分或辅助模型块。在某些其它的实施例中,所述数据处理设备(TE)可能是膝上/台式电脑,或者其它系统的集成部分,例如,车辆信息控制系统部分。所述数据处理单元(TE)包括I/O装置(I/O)、中央处理单元(CPU)以及存储器(MEM)。所述存储器(MEM)包括只读存储器ROM部分和可重写部分,例如随机接入存储器RAM和FlASH存储器。用于和不同的外部实体,如CD-ROM、其它设备以及用户,进行通信的信息,通过所述I/O装置(I/O)被向/从中央处理单元(CPU)传送。如果该数据处理设备实现为移动台,则其典型地包括无线电收发机Tx/Rx,该无线电收发机与无线网络进行通信,典型地通过天线与无线电收发机基站进行通信。用户接口(UI)设备典型地包括显示器、键盘、麦克风和扩音器。所述数据处理设备(TE)可能还包括连接装置MMC,例如标准格式时隙,用于可以提供在数据处理设备上运行的多种应用的各种硬件模块。所述数据处理设备(TE)包含语音识别器(SR),其可以由在中央处理单元(CPU)中执行的软件实现。SR实现了与语音识别器单元相关联的典型功能,实质上,SR找出了语音序列和预定的符号序列模型之间的映射。以下假设,所述语音识别器SR可能被设置有具有如下所述特征中的至少某些的语音结束检测装置。语音结束检测器也有可能是作为单独的实体而实现的。因此,与语音结束检测相关的且在以下将更详细地描述的本专利技术的功能,可以在数据处理设备(TE)中通过计算机程序实现,当在中央处理单元(CPU)上执行所述计算机程序时,所述计算机程序使得所述数据处理设备实现本专利技术的过程。所述计算机程序的功能可以被分为几个相互通信本文档来自技高网
...

【技术保护点】
一种语音识别系统,其包括具有语音结束检测的语音识别器,其中,所述语音识别器被配置为确定从所接收的语音数据确定的识别结果是否稳定,所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分,用于语音结束检测,以及所述语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。

【技术特征摘要】
【国外来华专利技术】US 2004-5-12 10/844,2111.一种语音识别系统,其包括具有语音结束检测的语音识别器,其中,所述语音识别器被配置为确定从所接收的语音数据确定的识别结果是否稳定,所述语音识别器被配置为,处理与所接收的语音数据帧相关联的最佳状态得分和最佳令牌得分,用于语音结束检测,以及所述语音识别器被配置为,如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。2.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为,通过累加预定数目的帧的最佳状态得分值,来计算最佳状态得分总值,响应所述识别结果为稳定,所述语音识别器被配置为比较所述最佳状态得分总值和预定的门限总值,以及所述语音识别器被配置为,当所述最佳状态得分总值不超过所述门限总值时确定语音结束检测。3.根据权利要求2的语音识别系统,其中,所述语音识别器被配置为通过所检测的静音模型的数目来归一化所述最佳得分总值,以及所述语音识别器被配置为,比较所述被归一化的最佳状态得分总值和所述预定的门限总值。4.根据权利要求2的语音识别系统,其中,所述语音识别器被进一步配置为,比较超过所述门限总值的最佳状态得分总值的数目与预定的最小数目值,所述最小数目值定义了所需的超过所述门限总值的最佳状态得分总值的最小数目,以及所述语音识别器被配置为,如果超过所述门限总值的最佳状态得分总值的数目等于或大于所述预定的最小数目的值,则确定语音结束检测。5.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为在确定语音结束检测之前等待预定的时间段。6.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为反复确定所述最佳令牌得分值,所述语音识别器被配置为,基于至少两个最佳令牌得分值,来计算所述最佳令牌得分值的斜率,所述语音识别器被配置为,比较所述斜率与预定的门限斜率值,以及所述语音识别器被配置为,当所述斜率不超过所述门限斜率值时,确定语音结束检测。7.根据权利要求6的语音识别系统,其中,对每一帧计算所述斜率。8.根据权利要求6的语音识别系统,其中,所述语音识别器被进一步配置为,比较超过所述门限斜率值的斜率数目与预定的超过门限斜率值的斜率的最小数目,以及所述语音识别器被配置为,如果所述超过门限斜率总值的最佳状态得分总值的数目等于或大于所述预定的最小数目,则确定语音结束检测。9.根据权利要求6的语音识别系统,其中,所述语音识别器被配置为,仅当接收了预定数目的帧后才开始计算斜率。10.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为,确定至少一个字间令牌的最佳令牌得分以及至少一个出口令牌的最佳令牌得分,以及所述语音识别器被配置为,仅当所述出口令牌的最佳令牌得分值高于所述字间令牌的最佳令牌得分值时,才确定语音结束检测。11.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为,仅当所述识别结果没有不合格时,才确定语音结束检测。12.根据权利要求1的语音识别系统,其中,所述语音识别器被配置为,当接收到最大数目的产生基本上相同的识别结果的帧后,确定语音结束检测。13.一种用于在语音识别系统中配置语音结束检测的方法,所述方法包括处理与所接收的语音数据帧相关的最佳状态得分和最佳令牌得分,用于语音结束检测,确定从所接收的语音数据确定的识别结果是否稳定,以及如果所述识别结果稳定,则在所述处理的基础上确定是否检测到语音结束。14.根据权利要求13的方法,其中,通过累加预定数目的帧的最佳状态得分值,来计算最佳状态得分总值,响应所述识别结果为稳定,比较所述最佳状态得分总值与预定的门限总值,以及如果所述最佳状态得分总值不超过所述门限总值,则确定所述语音结束检测。15.根据权利要求13的方法,其中,反复确定最佳令牌得分的值,基于至少两个最佳令牌得分值来计算所述最佳令牌得分值的斜率,比较所述斜率与预定的门限斜率值,以及如果所述斜...

【专利技术属性】
技术研发人员:T拉赫蒂
申请(专利权)人:诺基亚公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1