使用具有词历史的实时词网格生成的自动语音识别的系统和方法技术方案

技术编号：15343472 阅读：116 留言：0更新日期：2017-05-17 00:27

本发明专利技术涉及使用具有词历史的实时词网格生成的自动语音识别的系统、制品和方法。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用具有词历史的实时词网格生成的自动语音识别的系统和方法相关申请本申请要求2014年10月6日提交的题为“SYSTEMANDMETHODOFAUTOMATICSPEECHRECOGNITIONUSINGON-THE-FLYWORDLATTICEGENERATIONWITHWORDHISTORIES(使用具有词历史的实时词网格生成的自动语音识别的系统和方法)”的美国专利申请No.14/506,844的权益。
技术介绍
随着越来越多的基于计算机的设备使用语音识别来接收来自用户的命令以便执行某些动作，以及将语音转换为文本用于听写应用或者甚至在一个或两个方向上交换信息的情况下保持与用户的对话，语音识别系统或自动语音识别器(ASR)变得越来越重要。这样的系统可以是取决于说话者的，其中通过使用户重复词来训练系统，或不取决于说话者的，其中任何人都可以提供立即识别的词。一些系统还可以经配置理解一组固定的单个词命令，例如用于操作理解术语呼叫或应答的移动电话，或者例如用于简单数据输入电话呼叫。其他ASR使用自然语言理解(NLU)模块，该自然语言理解(NLU)模块理解语法和词的定义以从话语(所说的词或句子)的上下文识别词以用于更复杂的对话或信息交换。为了在对话系统中集成自动语音识别器(ASR)与自然语言理解(NLU)模块，通常需要置信度测量和/或替代结果。生成该数据的一种流行的方式是创建词网格，即可能的词假设的网络。然而，词网格的生成可能会减慢语音识别过程，导致相对低效的过程。另外，词网格通常在第二步骤中从在语音解码期间实时生成的状态或音素网格中构建。由于状态和音素网格可以变得相对较...
使用具有词历史的实时词网格生成的自动语音识别的系统和方法

【技术保护点】
一种计算机实施的语音识别的方法，所述方法包括：通过加权有限状态变换器(WFST)传播令牌，并且包括将词序列放置到词网格中，所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符；当在沿着具有输出符号的所述弧中的一个传播的令牌处建立词时，生成用于各个令牌的词历史指定，其中所述词历史指定指示词序列；以及通过至少部分地使用所述词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。

【技术特征摘要】
【国外来华专利技术】2014.10.06 US 14/506,8441.一种计算机实施的语音识别的方法，所述方法包括：通过加权有限状态变换器(WFST)传播令牌，并且包括将词序列放置到词网格中，所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符；当在沿着具有输出符号的所述弧中的一个传播的令牌处建立词时，生成用于各个令牌的词历史指定，其中所述词历史指定指示词序列；以及通过至少部分地使用所述词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。2.根据权利要求1所述的方法，所述方法包括当令牌的词历史指定相同时，在所述WFST的相同节点中重新组合两个或更多个令牌，并且当两个或更多个令牌的词历史指定不相同时避免重新组合。3.根据权利要求1所述的方法，所述方法包括当所述令牌传播时，将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。4.根据权利要求3所述的方法，所述方法包括当多个令牌的词历史指定不同时，通过将所述多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新，并且包括：当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时，将所述多个令牌的词网格节点引用放置到所述新的活动令牌中，以及当所述引用在所述多个令牌中的一个以上的令牌中相同时，对于所述新的活动令牌维持具有最佳分数的引用。5.根据权利要求1所述的方法，其中所述指定是通过使用递归散列函数形成的散列标签。6.根据权利要求1所述的方法，所述方法包括将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词，并且使用对应于多个词的多个值确定所述词历史指定。7.根据权利要求1所述的方法，其中所述词历史指定根据所述词序列内的所述词的顺序而不同。8.根据权利要求1所述的方法，所述方法包括将多个最终结束令牌组合成单个话语结束令牌。9.根据权利要求1所述的方法，所述方法包括当令牌的词历史指定相同时，在所述WFST的所述相同节点中重新组合两个或更多个令牌，并且当两个或更多个令牌的词历史指定不相同时避免重新组合；当所述令牌传播时将在具有输出标记的WFST的弧处建立的词放置到词网格中；当多个令牌的词历史指定不同时，通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新，并且包括：当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时，将所述多个令牌的词网格节点引用放置到所述新的活动令牌中，以及当所述引用在所述多个令牌中的一个以上的令牌中是相同的时，对于所述新的活动令牌维持具有最佳分数的引用；将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词，以及使用对应于多个词的多个值确定所述词历史指定；以及将多个最终结束令牌组合成单个话语结束令牌；其中所述指定是通过使用递归散列函数形成的散列标签；其中所述词历史指定根据所述词序列内的词的顺序而不同；其中所述词历史指定是十六进制数；其中用添加到所述十六进制数的令牌的每个词更新所述十六进制数；并且其中根据所述令牌中的词的顺序而不同地更新所述十六进制数。10.一种计算机实施的语音识别的系统，所述系统包括：至少一个声学信号接收单元；至少一个处理器，其通信地连接到所述声学信号接收单元；至少一个存储器，其通信地耦合到所述至少一个处理器；以及加权有限状态变换器(WFST)解码器，其通信地耦合到所述处理器，并且：通过加权有限状态变换器(WFST)传播令牌，并且包括将词序列放置到词网格中，所述加权有限状态变换器(WFST)具有作为所述WFST的输出标记的词或词标识符；当在具有输出符号的所述WFST的弧处建立词时，生成用于各个令牌的词历史指定，其中所述词历史指定指示词序列；以及通过至少部分地使用所述词历史指定确定是否应当在所述WFST的状态中组合两个或更多个令牌以形成单个令牌。11.根据权利要求10所述的系统，其中所述WFST解码器在令牌的词历史指定相同时在所述WFST的所述相同状态中重新组合两个或更多个令牌，并且当两个或更多个令牌的词历史指定不相同时避免重新组合。12.根据权利要求10所述的系统，其中所述WFST解码器在令牌传播时将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。13.根据权利要求12所述的系统，其中在多个令牌的词历史指定不同时，所述WFST解码器通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新，并且包括：当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时，将所述多个令牌的词网格节点引用放置到所述新的活动令牌中，以及当所述引用在所述多个令牌中的一个以上的令牌中相同时，对于新的活动令牌维持具有最佳分数的引用。14.根据权利要求10所述的系统，其中所述指定是通过使用递归散列函数形成的散列标签。15.根据权利要求1...

【专利技术属性】
技术研发人员：J·奥费，G·施特默尔，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人