一种根据辅助信息提高语音识别的方法和设备技术

技术编号:3045698 阅读:204 留言:0更新日期:2012-04-11 18:40
一种提高语音识别器识别结果的方法利用辅助信息对识别结果进行确认。用户输入语音到驻留在移动设备或者远端服务器上的语音识别器。语音识别器根据输入语音确定识别结果。为所述识别结果计算出一个置信度度量值。如果该置信度度量值小于阈值,则向用户提示输入辅助数据。该辅助数据根据输入语音和识别结果之间的模糊度动态地被确定;通过辅助数据把输入语音和潜在的不正确识别结果区分开来。辅助数据可以是组成输入语音的字母数字字符集的子集,或者其他的一些和想得到的结果有关联的数据,比如电话区号或者位置。用户可以通过说话的方式提供这些辅助数据,也可以通过键盘,触控板,触摸屏和触控笔等设备手工输入这些信息。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音拨号系统,特别是涉及提高语音拨号系统的性能。
技术介绍
语音拨号系统需要具有语音识别能力来处理语音命令。在移动电话上,用户可以利用语音识别技术容易地拨出一个电话号码。例如,用户可以通过说出移动电话通讯薄中一个联系人名字的方式来启动对该联系人的呼叫。语音拨号系统通过语音识别技术处理这个名字并自动拨打正确的号码。为了让语音拨号系统正确地识别出要拨打的电话号码,用户必须清楚地说出联系人的名字。但是,例如声音失真,发音错误,以及背景噪音都可能导致语音拨号系统错误理解期望的联系人。因此,语音拨号系统可以实现一个系统,在该系统中,给用户的输入语音分配一个置信度值。也就是说,该置信度值显示了语音拨号系统所确定的期望联系人假定的正确度。一个低的置信度值可能表明为了拨出正确的电话号码必须采取进一步的措施,例如,语音拨号系统可以要求用户重新说一遍要拨打的联系人的名字。当然,在具体实施时,也可以用一个度量值来替代上述置信度值的作用,当语音得到好的识别的时候,该度量值的值就低,而当错误识别的可能性大时,该度量值的值就高。这可被称为“不确定性”的度量。不确定性度量值取高值可能表明为了拨出正确的号码必须采取进一步的措施。虽然这两种度量在表面上看是不同的,但它们在系统中起到相同的作用。
技术实现思路
一种提高在远端位置的语音识别器识别结果的方法包括在相同的远端位置接收来自用户的输入语音。根据输入语音决定一个或者一个以上候选匹配。在另一个实施方案中,所述一个或者一个以上候选匹配代表了所有可能候选的完整列表,并且根据输入语音对这个列表进行了排序。提示用户输入与上述输入语音相关联的辅助数据。从用户接收辅助数据。根据输入语音和辅助数据,从所述一个或者一个以上候选匹配中选出一个候选。在本专利技术的另一方面,一种提高电子设备上语音识别器识别结果的方法包括在该电子设备接收来自用户的输入语音。输入的语音在语音识别器进行解释。根据输入的语音,从多个候选记录中确定了一个或者一个以上候选记录。在另一个实施方案中,所述一个或者一个以上候选匹配代表了可能候选的完整列表,并且根据输入的语音对这个列表进行了排序。根据输入的语音为所述一个或一个以上候选记录生成置信度度量值。如果置信度度量值小于一个阈值,则提示用户输入与输入语音相关的辅助数据。在该设备接收用户的辅助数据。根据输入语音和辅助数据从所述一个或者一个以上候选记录中挑选出一个候选记录。在本专利技术的另一方面,一个基于输入语音来拨打电话的系统包括一个语音识别器,该语音识别器接收远端用户的输入语音。一个数据库包含多项记录。一个控制器可以与语音识别器和数据库通信,根据输入语音从所述多项纪录中选出一个或者一个以上候选记录。该控制器根据输入语音和所述一个或者一个以上候选记录间的模糊度确定辅助数据,并提示用户输入所述的辅助数据。从下文的详细描述中,可以清楚地看出本专利技术应用的更多领域。需要指出的是,所述的详细描述和具体例子,在说明本专利技术的优选实施方案的同时,目的仅在于示意,而非对本专利技术范围的限制。附图说明本专利技术将通过详细描述和附图而得到更全面的了解,附图中图1为根据本专利技术的一种语音拨号系统的流程图;图2为根据本专利技术的一种移动设备的功能模块图;图3为根据本专利技术的结合了基于历史置信度度量值的语音拨号系统的流程图;图4为根据本专利技术的一种自动接线总机的功能模块图。具体实施例方式下文对有关优选实施方案的描述本质上仅属示例,而无意构成对本专利技术、本专利技术的应用或者用途的限制。如图1所示,在步骤12,用户说出一个联系人的名字,从而触发了语音拨号算法10。语音拨号系统10解释输入的联系人名字,并将该输入联系人名字和通讯簿中的一个联系人名字联系起来。在步骤14,语音拨号系统10确定输入联系人名字的置信度度量值。在步骤16,语音拨号系统判断该置信度度量值是否大于阈值。如果该置信度度量值大于阈值,则语音拨号系统10在步骤18按照该联系人的名字得到他的电话号码并呼出。例如,语音拨号系统10可以要求置信度度量值大于一个特定的阈值,比如60%。该阈值可以预先设定或者可被用户修改。如果上述置信度度量值小于所述阈值,但是不小于一个最小的阈值,那么,在步骤20,语音拨号系统10要求用户确认其口呼的联系人名字是否被正确解释。例如,语音拨号系统10可能会重复一遍该联系人的名字,然后要求用户回答“是”或者“否”。如果用户回答“是”,则语音拨号系统10可以继续上述的电话呼叫,并在步骤18拨出经过确认的联系人名字对应的电话号码。如果用户回答“否”,则在步骤22,语音拨号系统10要求用户输入辅助信息。作为替代,如果置信度度量值小于所述最小的阈值,则语音拨号系统10将忽略步骤20而直接转到步骤22。系统10可能会要求用户用键盘和/或语音命令来输入辅助信息。例如,语音拨号系统10可能要求用户口呼或者用键盘输入要拨打联系人的词首字母。用户也可以用其他的合适方式输入辅助信息,比如鼠标、触控板,触摸屏或者触控笔。在另外一个实施方案中,语音拨号系统10可能会在要求输入语音的步骤12之前要求用户输入键盘信息。在此实施方案下,语音拨号系统10可以根据键盘输入限定的约束解释输入的语音。在步骤24,语音拨号系统10处理辅助信息来确定正确的联系人名字,然后运行到步骤18。如果该辅助信息仍不足以确定正确的联系人名字,则需要采取进一步的动作。例如,语音拨号系统10可以返回到步骤22以要求附加的辅助信息。在另外一个实施方案中,语音拨号系统10可以返回到步骤12并要求用户重新说出要拨打的联系人的名字。在另一个实施方案中,语音拨号系统10可能无法正确地确定输入的语音。在此情况下,语音拨号系统10可以引导用户到接线员那里获得进一步的帮助。例如,如果辅助信息不足以帮助确认联系人,则语音拨号系统10可以在步骤26增加一个计数器的值,并检验。如果该计数器的值没有达到一个预先设定的定点,则语音拨号系统10可以继续在步骤22要求输入辅助信息。如果计数器的值已经达到所述定点,则语音拨号系统10可以在步骤28将用户引导到接线员。语音拨号系统10根据在步骤12输入的初始口呼联系人名字的模糊度来决定要求什么样的辅助信息。例如,如果要拨打的联系人的名字是“JohnSmith”,并且在通讯簿中有多条纪录都有词首字母“J”和“S”,那么要求用户输入词首字母可能不会有多大帮助。在这种情况下,语音拨号系统10可以要求用户输入其他的一些辅助信息,例如要拨打联系人的姓的前三个字母。或者,语音拨号系统10可以要求用户输入要拨打的联系人的电话区号。语音拨号系统10在步骤22中所要求的辅助信息减到最少。也就是说,语音拨号系统将在保证足以确认拨打联系人名字的前提下要求尽可能少的信息输入,然后继续呼叫。如果步骤14确定的初始的置信度度量值是充分的,语音拨号系统将不会要求辅助信息。如果语音拨号系统10要求键盘输入,则语音拨号系统10将要求把要拨打的联系人从候选联系人的前N个最佳(N-best)列表中区分出来所需要的最少数量的键盘按键操作。例如,如果要拨打的联系人和相似纪录的前三个字母都是“smi”,则语音拨号系统10可以要求用户输入期望联系人名字的前四个字母。或者,语音拨号系统10可能仅仅要求用户用键盘输入联系人的名字,并且本文档来自技高网...

【技术保护点】
一种提高位于远端位置的语音识别器的识别结果的方法,包括如下步骤:在所述远端位置接收来自用户的输入语音;根据所述输入语音确定一个或者一个以上候选的匹配;提示用户输入与上述输入语音相关的辅助数据;接收来自用户的辅 助数据;根据所述输入语音和所述辅助数据从所述的一个或者一个以上候选的匹配中选出一个匹配。

【技术特征摘要】
【国外来华专利技术】US 2003-8-29 10/652,1461.一种提高位于远端位置的语音识别器的识别结果的方法,包括如下步骤在所述远端位置接收来自用户的输入语音;根据所述输入语音确定一个或者一个以上候选的匹配;提示用户输入与上述输入语音相关的辅助数据;接收来自用户的辅助数据;根据所述输入语音和所述辅助数据从所述的一个或者一个以上候选的匹配中选出一个匹配。2.如权利要求1所述的方法,其特征在于包括在语音识别器中对所述的输入语音进行解释。3.如权利要求1所述的方法,其特征在于包括根据输入语音为所述的一个或者一个以上候选的匹配产生置信度度量值。4.如权利要求3所述的方法,其特征在于,如果所述的置信度度量值小于阈值,则提示用户输入所述的辅助数据。5.如权利要求1所述的方法,其特征在于,所述的辅助数据是组成上述输入语音的字母数字字符集的一个子集。6.如权利要求1所述的方法,其特征在于,所述的辅助数据是区域号码,位置,或者一个名字的词首字母中的至少一个。7.如权利要求1所述的方法,其特征在于,所述接收辅助数据的步骤包括通过口语和手写输入中的至少一种方式接收所述辅助数据。8.如权利要求7所述的方法,其特征在于,所述手写输入包括来自键盘,触控板,触摸屏和触控笔中的至少一个的输入。9.如权利要求1所述的方法,其特征在于包括提示用户对所选择的候选匹配进行确认的步骤。10.如权利要求1所述的方法,其特征在于包括在用户和与所述一个或一个以上候选匹配中的所述一个匹配关联的实体之间建立通讯的步骤。11.如权利要求10所述的方法,其特征在于,所述建立通讯包括发起电话呼叫,电子邮件消息,语音邮件消息和文本消息中的至少一个。12.如权利要求10所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。13.如权利要求1所述的方法,其特征在于,所述的辅助数据和所述输入语音的模糊度有关。14.如权利要求3所述的方法,其特征在于包括根据针对所述用户的语音模型修改置信度度量值的步骤。15.如权利要求1所述的方法,其特征在于,确定一个或者一个以上候选匹配的步骤包括根据所述一个或者一个以上候选匹配的识别历史记录来确定一个或者一个以上候选匹配的步骤,其中所述的识别历史记录表明了在所述的一个或者一个以上候选匹配中,是否存在语音识别器难于解释的匹配。16.如权利要求15所述的方法,其特征在于还包括基于输入语音及识别历史记录来为所述一个或者一个以上候选匹配产生置信度度量值;如果上述的置信度度量值小于阈值,提示用户输入辅助信息。17.如权利要求16所述的方法,其特征在于还包括基于所述的识别历史记录来调整所述置信度度量值和所述阈值中的至少一个的步骤。18.如权利要求1所述的方法,其特征在于,所述的远端位置为一个目录协助服务。19.如权利要求1所述的方法,其特征在于还包括根据从用户接收的辅助信息中的排字错误和拼写错误中的至少一个,在辅助数据和所述一个或者一个以上候选匹配中确定一个近似符合的匹配。20.如权利要求1所述的方法,其特征在于还包括根据辅助数据和输入语音中的发音错误中的至少一个,在输入语音和所述一个或者一个以上候选匹配中确定一个近似符合的匹配。21.如权利要求2所述的方法,其特征在于,所述的语音识别器在部分程度上根据所述辅助数据来解释输入的语音。22.如权利要求1所述的方法,其特征在于还包括向用户提供和所述一个或者一个以上候选匹配中的所述一个匹配关联的实体的有关信息。23.如权利要求22所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。24.如权利要求22所述的方法,其特征在于,所述的信息包括与所述实体有关的导航信息,目录协助信息,公司信息和联系人信息中的至少一个。25.如权利要求1所述的方法,其特征在于还包括提示用户输入信息,以便发送到与所述一个或者一个以上候选匹配中的所述一个匹配关联的实体。26.如权利要求25所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置,和服务中的至少一个。27.如权利要求1所述的方法,其特征在于,所述的输入语音是所述一个或者一个以上候选匹配的子集。28.一种提高位于电子设备中的语音识别器的识别结果的方法,包括如下步骤在上述设备中接收来自用户的辅助信息;根据所述的辅助信息确定一个或者一个以上候选匹配;提示用户输入与所述辅助数据相关的输入语音;接收来自用户的输入语音;根据所述的输入语音和辅助数据从所述的一个或者一个以上候选匹配中选出一个匹配。29.如权利要求28所述的方法,...

【专利技术属性】
技术研发人员:JC詹奎R库恩M康特立尼R切盖尔瓦瑞恩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1