外源性大词汇量模型到基于规则的语音识别的合并制造技术

技术编号:13619782 阅读:70 留言:0更新日期:2016-08-31 09:28
提供了外源性大词汇量模型到基于规则的语音识别的合并。音频流由本地小词汇量、基于规则的语音识别系统(SVSRS)接收,并被传输至大词汇量的、基于统计模型的语音识别系统(LVSRS)。SVSRS和LVSRS对音频执行识别。如果一部分音频没有被SVSRS识别,则触发这样的规则:将标记插入到识别结果中。将该识别结果发送至LVSRS。如果检测到标记,则对音频的指定的一部分执行识别。LVSRS结果与SVSRS结果进行统一并作为混合响应发送回SVSRS。如果没有触发混合识别规则,则唤起仲裁算法来确定是SVSRS识别还是LVSRS识别具有更小的词语错误率。将所确定的识别作为响应发送至SVSRS。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
语音识别系统大体上可分为两种类型的系统:利用小词汇量并生成高度精确的结果的基于规则的系统,或者是利用大词汇量并以损失特定精确度为代价而提供识别的宽泛度的开放式的、基于统计的系统。语音识别已经成为了诸如移动电话、平板计算机、可穿戴设备(例如智能手表等)、便携式媒体播放机等之类的小型设备上的一种有用的工具。用户可利用各种类型的应用来使用语音识别系统,以执行动作、回答问题、做出推荐等。例如,用户可说出命令以启动文本消息应用、说出文本消息、并且接着说出命令以发送该文本消息。这样的设备上的语音识别可能受硬件、软件、和/或处理/存储器能力的限制。从而,较小型的设备可以包括基于规则的语音识别系统,而不包括支持开放式语音的大词汇量模型,这是由于这样的系统可以消耗的存储器和处理能力的量。大词汇量语音识别系统可以在单独的系统上可用,例如,在远程服务器上。一些小型设备可以依赖基于网络的大词汇量语音识别系统来执行识别,然而,对网络的访问不是总是可用的,而且从计算的角度而言,将大词汇量系统托管在小型设备上可能不可行。通常,存在结合两种类型的语音识别系统的优点的需求,例如,其中,来自用户的说话话语(utterance)的一部分可以需要以高精度匹配,而话语的另一部分语音可以需要非特定地匹配。本专利技术是关于这些和其他考虑而做出的。
技术实现思路
提供了该
技术实现思路
以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在作为帮助来确定所要求保护的主题的范围。本专利技术的实施例通过提供外源性大词汇量模型到基于规则的语音识别
的合并来解决上述和其他问题。可以利用本地设备上的受限的、基于规则识别与远程的、开放式的、基于统计的识别的组合,以传递包含基于设备的规则的特异性以及大语言模型的宽泛度两者的识别结果。在以下的附图和说明中阐述了一个或多个实施例的细节。通过阅读以下详细说明并查阅相关联的附图,其他特征和优点将会显而易见。应当理解的是,以下的详细说明仅仅是解释性的,而不限制所要求保护的专利技术。附图说明包含在本公开中并构成本公开的一部分的附图示出了本专利技术的各种实施例。在附图中:图1是用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统的一个实施例的框图;图2是示出了小词汇量语音识别系统和大词汇量语音识别系统之间的请求和响应事务的框图;图3A-3C示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的方法的流程图;图4是示出了计算设备的示例物理组件的框图,其中利用所述计算设备可以实践本专利技术的实施例;图5A和5B是移动计算设备的简化的框图,其中利用所述移动计算设备可以实践本专利技术的实施例;以及图6是其中可以实践本专利技术的实施例的分布式计算系统的简化的框图。具体实施方式本专利技术的实施例针对于提供外源性大词汇量模型到基于规则的语音识别的合并。设备(例如,移动电话、平板设备等)的用户可以向设备提供音频流。例如,用户可说出命令和/或口述消息。可以由本地设备上的小词汇量的、基于规则的语音识别系统来执行对音频流的识别。根据实施例,还可以将音频流以流式传输至远程大词汇量语音识别系统,以用于使用统计语言模型来进行识别。大词汇量语音识别系统的识别可以与小词汇量的、基于规则的语音识别系统的识别同时进行。小词汇量的、基于规则的语音识别系统可以包括混合识别规则,其中,当音频的一部分不被小词汇量的、基于规则的语音识别系统识别时,可以触发该混合识别规则。可以将指示未被识别的部分的标记插入到识别结果中。可以将包括任何标记的识别结果发送至大词汇量语音识别系统。在检测到标记之后,可以使用统计语言模型来执行对由标记所指定的一部分音频的识别。大词汇量语音识别系统的结果可以与小词汇量的、基于规则的语音识别系统的结果进行统一,并且作为混合识别响应发送回小词汇量语音识别系统。实施例还可以包括预先训练以降低词语的识别错误率的仲裁算法。该仲裁算法可操作以确定是使用小词汇量语音识别系统的识别结果、大词汇量语音识别系统的识别结果、还是使用混合识别结果(如果触发了混合识别规则)。根据实施例,所述仲裁算法可以是基于网络的,并且可以在向小词汇量语音识别系统发送识别响应之前被唤起。以下的详细说明涉及附图。在可能的情况下,在附图和以下的说明中所使用的相同的附图标记指代相同或相似的元素。尽管已经描述了本专利技术的实施例,但是修改、变型和其他实现也是可能的。例如,可以对在附图中所示出的元素进行替换、增加或修改,并且可以通过对所公开的方法进行替换、重新排序或增加步骤而修改所公开的方法。从而,以下详细说明不对本专利技术进行限制,而相反,本专利技术的适当的范围是由所附权利要求所限定的。现将参考附图来描述各种实施例,其中相同的附图标记表示相同的元素。图1示出了用于提供外源性大词汇量模型到基于规则的语音识别的合并的系统100的框图。系统100包括设备110,其包括小词汇量语音识别系统115。设备110可以是在下文中参考图4到图6所描述的多种合适的计算设备中的一种。例如,设备110可以包括平板计算机设备、台式计算机、移动通信设备、膝上型计算机、膝上型/平板混合计算设备、游戏设备、媒体播放设备、或者用于执行用来执行多种任务的应用的计算设备。根据实施例,小词汇量语音识别系统(SVSRS)115可以包括识别器125和基于规则的语法120。根据实施例,当用户105向设备110说出话语时,SVSRS 115可以接收音频160以供基于规则的语音识别。可以由SVSRS
115使用在设备110上所建立(author)的识别规则(基于规则的语法120)来执行音频的识别。根据实施例,可以使用例如XML格式(以语音识别语法规范(SRGS)的格式)来建立基于规则的语法120。基于规则的语法120可以包括混合识别规则122。根据实施例,可以将音频160同时传输至大词汇量语音识别系统(LVSRS)145。LVSRS 145可以包括识别器155和开放式的统计语言模型150,所述模型150用于执行开放式的基于统计的识别。根据一个实施例,LVSRS 145可以是基于本地的。根据另一实施例并如图1中所示,LVSRS 145可以是云托管的并且作为服务来提供。例如,LVSRS 145可以通过诸如内联网、外联网、或互联网等之类的网络140而通信地连接至服务器设备130(或多个服务器设备)。现在参考图2,示出了SVSRS 115和LVSRS 145之间的请求和响应事务200的框图。如在上文中所述的,话语或音频160可以由SVSRS 115来接收,并且被流式传输至LVSRS 145以供同时识别。当SVSRS 115执行其基于规则的识别时,识别系统可以对规则的序列进行匹配。可以将SVSRS匹配规则的识别结果215插入到识别结果210中、将识别结果210序列化并且发送以作为对LVSRS 145的请求230。例如,考虑到用户105发出诸如“呼叫Bob”之类的陈述。话语(音频160)可以容易地由SVSRS 115的基于规则的语法所识别。从而,SVSRS识别结果210可以包括话语“呼叫Bob”的转录(SVSRS匹配规则的识别结果215)。如果一部分音频与规则不相匹配,则可以触本文档来自技高网
...

【技术保护点】
一种用于提供语音识别的方法,所述方法包括:接收音频流;对所述音频流执行基于规则的语音识别,以产生识别结果;如果所述音频流的一部分被识别,则将所述音频流的匹配规则的一部分插入到所述识别结果中;如果所述音频流的一部分没有被识别,则在所述识别结果中指定所述音频流的没有被识别的一部分;以及将所述识别结果发送至基于统计的语音识别系统,以对所述音频流的所述没有被识别的一部分应用基于统计的识别。

【技术特征摘要】
【国外来华专利技术】2014.01.17 US 14/158,1471.一种用于提供语音识别的方法,所述方法包括:接收音频流;对所述音频流执行基于规则的语音识别,以产生识别结果;如果所述音频流的一部分被识别,则将所述音频流的匹配规则的一部分插入到所述识别结果中;如果所述音频流的一部分没有被识别,则在所述识别结果中指定所述音频流的没有被识别的一部分;以及将所述识别结果发送至基于统计的语音识别系统,以对所述音频流的所述没有被识别的一部分应用基于统计的识别。2.根据权利要求1所述的方法,还包括将所述音频流和元数据发送至所述基于统计的语音识别系统。3.根据权利要求1所述的方法,还包括接收响应,所述响应包括所述音频流的所述匹配规则的一部分和第二识别结果。4.一种用于提供外源性基于统计的语音识别系统到基于规则的语音识别的合并的系统,所述系统包括:一个或多个处理器;以及耦合至所述一个或多个处理器的存储器,所述一个或多个处理器可操作以:接收音频流;对所述音频流执行基于规则的语音识别,以产生识别结果;如果所述音频流的一部分与规则相匹配,则将所述音频流的匹配规则的一部分插入到所述识别结果中;如果所述音频流的一部分与规则不相匹配,则在所述识别结果中指定与规则不相匹配的所述音频流的所述一部分;以及将所述识别结果发送至基于统计的语音识别系统,以对与规则不
\t相匹配的所述音频流的所述一部分应用基于统计的识别。5.一种用于提供外源性基于统计的语音识别系统到基于规则的语音识别的合并的方法,所述方法包括:接收音频流;接收第一识别结果;确定所述第一识别结果是否指定了没有被基于规则的语音识别系统识别的所述音频流的一部分;如果所述第一识别结果指定了没有被基于规则的语音识别系统所识别的所述音频流的一部分,则对所述音频流的所指定的部分执行基于统计的识别,以产生第二...

【专利技术属性】
技术研发人员:T·威尔逊S·夸齐J·维孔多阿P·法特普里亚
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1