当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用具有词历史的实时词网格生成的自动语音识别的系统和方法技术方案

技术编号:15343472 阅读:116 留言:0更新日期:2017-05-17 00:27
本发明专利技术涉及使用具有词历史的实时词网格生成的自动语音识别的系统、制品和方法。

【技术实现步骤摘要】
【国外来华专利技术】使用具有词历史的实时词网格生成的自动语音识别的系统和方法相关申请本申请要求2014年10月6日提交的题为“SYSTEMANDMETHODOFAUTOMATICSPEECHRECOGNITIONUSINGON-THE-FLYWORDLATTICEGENERATIONWITHWORDHISTORIES(使用具有词历史的实时词网格生成的自动语音识别的系统和方法)”的美国专利申请No.14/506,844的权益。
技术介绍
随着越来越多的基于计算机的设备使用语音识别来接收来自用户的命令以便执行某些动作,以及将语音转换为文本用于听写应用或者甚至在一个或两个方向上交换信息的情况下保持与用户的对话,语音识别系统或自动语音识别器(ASR)变得越来越重要。这样的系统可以是取决于说话者的,其中通过使用户重复词来训练系统,或不取决于说话者的,其中任何人都可以提供立即识别的词。一些系统还可以经配置理解一组固定的单个词命令,例如用于操作理解术语呼叫或应答的移动电话,或者例如用于简单数据输入电话呼叫。其他ASR使用自然语言理解(NLU)模块,该自然语言理解(NLU)模块理解语法和词的定义以从话语(所说的词或句子)的上下文识别词以用于更复杂的对话或信息交换。为了在对话系统中集成自动语音识别器(ASR)与自然语言理解(NLU)模块,通常需要置信度测量和/或替代结果。生成该数据的一种流行的方式是创建词网格,即可能的词假设的网络。然而,词网格的生成可能会减慢语音识别过程,导致相对低效的过程。另外,词网格通常在第二步骤中从在语音解码期间实时生成的状态或音素网格中构建。由于状态和音素网格可以变得相对较大,并且通常显著地大于词网格,所以这种方法需要大量的RAM。更有效的系统是期望的。附图说明在附图中通过示例而非限制的方式示出本文描述的材料。为了示出的简单和清楚,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可以相对于其他元件被放大。进一步地,在认为适当的情况下,在图中重复附图标记以指示对应或类似的元件。在图中:图1是示出自动语音识别系统的示意图;图2是使用词历史生成词网格的语音识别过程的流程图;图3A至图3B是使用词历史生成词网格的语音识别过程的详细流程图;图4是用于语音解码的示例加权有限状态变换器(WFST)的图示;图5是包括使用来自图4的WFST的中间词网格的示例静态和动态搜索空间的图示;图6是示例静态和动态搜索空间的另一个图示;图7是示例静态和动态搜索空间的另一个图示;图8是示例静态和动态搜索空间的另一个图示;图9是示例词网格的图示;图10是示例中间词网格的图示;图11是图10的示例中间词网格的另一个图示;图12是图10的示例中间词网格的另一个图示;图13是示例系统的说明图;图14是另一示例系统的说明图;以及图15示出全部根据本公开的至少一些实施布置的另一示例设备。具体实施方式现在参照附图描述一个或多个实施方式。虽然讨论了特定的配置和布置,但是应当理解,这仅仅是为了说明的目的。相关领域的技术人员将认识到,在不脱离本描述的精神和保护范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是,本文所描述的技术和/或布置还可以在除了本文所描述的之外的各种其他系统和应用中采用。虽然以下描述阐述了例如可以在诸如芯片上系统(SoC)架构的架构中表现的各种实施方式,但是本文所描述的技术和/或布置的实施方式不限于具体架构和/或计算系统,并且可以由用于类似目的的任何架构和/或计算系统实施。例如,采用例如多个集成电路(IC)芯片和/或封装、和/或各种计算设备和/或诸如膝上型或台式计算机的消费电子(CE)设备、诸如智能电话的移动设备、视频游戏面板或控制台、电视机顶盒、车载车辆系统、听写机、建筑物的安全和环境控制系统等等的各种架构可以实施本文所描述的技术和/或布置。进一步地,虽然以下描述可以阐述诸如逻辑实施、系统部件的类型和相互关系、逻辑分区/集成选择等许多特定细节,但是可以在没有这些特定细节的情况下实践所要求保护的主题。在其他情况下,例如,可以不详细地示出诸如控制结构和完整软件指令序列的一些材料,以免混淆本文所公开的材料。本文公开的材料可以在硬件、固件、软件或其任何组合中实施。本文公开的材料还可以实施为存储在机器可读介质或存储器上的指令,其可以由一个或多个处理器读取和执行。机器可读介质可以包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存设备;电、光、声或其它形式的传播信号(例如,载波、红外信号、数字信号等)等。在另一种形式中,诸如非暂时性计算机可读介质的非暂时性制品可以与上述任何示例或其他示例一起使用,除了其不包括暂时信号本身。它包括除了可以以“暂时”方式临时保持数据的信号本身的那些元件,例如RAM等。在说明书中提及“一个实施方式”、“实施方式”、“示例实施方式”等指示所描述的实施方式可以包括具体特征、结构或特性,但是每个实施方式可以不一定包括具体特征、结构或特性。此外,这样的短语不一定指相同的实施方式。进一步地,当结合实施方式描述具体特征、结构或特性时,认为无论本文是否明确描述,结合其他实施方式影响这样的特征、结构或特性是在本领域技术人员的知识范围内。使用具有词历史的实时词网格生成的自动语音识别的系统、制品以及方法。如上所述,为了在对话系统中将自动语音识别器(ASR)与自然语言理解(NLU)模块集成,通常需要置信度测量和/或替代结果。生成该数据的一种流行方式是创建词网格,即可能的词假设的网络。词网格通常在说出话语之后在第二步骤中从动态生成的状态或音素网格中生成。由于状态和音素网格可以变得相当大,并且总是显著大于词网格,所以这种方法需要大量的RAM。例如,参见对于使用音位网格生成词网格的方法的“EfficientGeneralLatticeGenerationandRescoring”(Ljolje等人,Proc.Eurospeech99),并且其全部并入本文。本文描述的ASR系统和方法解决了与第一最佳解码相比较以更少的存储器有效地生成词网格,并且没有减慢语音识别过程的问题。为了实现这一点,在解码期间语音识别解码器在单程中创建词网格,而不需要构建中间状态或音素网格或词边界列表。相反,在解码期间在单程中生成词网格。该方法对解码速度没有显著的负面影响。用于执行所公开的方法的解码器可以是基于加权有限状态变换器(WFST)的语音解码器,例如,如“Juicer:AWeightedFinite-StateTransducerSpeechDecoder”(Moore等人,3rdJointWorkshoponMultimodalInteractionandRelatedMachineLearningAlgorithmsMLMI'06)中所描述的一种解码器。词网格的产生与用于WFST解码的方法无关,例如,解码器可以使用静态或动态WFST组成。假设词序列或词网格可以由加权有限状态变换器(WFST)解码器形成,所述加权有限状态变换器(WFST)解码器利用声学分数(基于GMM、DNN或正在分析的话语中的本文档来自技高网...
使用具有词历史的实时词网格生成的自动语音识别的系统和方法

【技术保护点】
一种计算机实施的语音识别的方法,所述方法包括:通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符;当在沿着具有输出符号的所述弧中的一个传播的令牌处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及通过至少部分地使用所述词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。

【技术特征摘要】
【国外来华专利技术】2014.10.06 US 14/506,8441.一种计算机实施的语音识别的方法,所述方法包括:通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为WFST的输出标记的弧和词或词标识符;当在沿着具有输出符号的所述弧中的一个传播的令牌处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及通过至少部分地使用所述词历史指定确定是否应当在WFST的状态中组合两个或更多个令牌以形成单个令牌。2.根据权利要求1所述的方法,所述方法包括当令牌的词历史指定相同时,在所述WFST的相同节点中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合。3.根据权利要求1所述的方法,所述方法包括当所述令牌传播时,将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。4.根据权利要求3所述的方法,所述方法包括当多个令牌的词历史指定不同时,通过将所述多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及当所述引用在所述多个令牌中的一个以上的令牌中相同时,对于所述新的活动令牌维持具有最佳分数的引用。5.根据权利要求1所述的方法,其中所述指定是通过使用递归散列函数形成的散列标签。6.根据权利要求1所述的方法,所述方法包括将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,并且使用对应于多个词的多个值确定所述词历史指定。7.根据权利要求1所述的方法,其中所述词历史指定根据所述词序列内的所述词的顺序而不同。8.根据权利要求1所述的方法,所述方法包括将多个最终结束令牌组合成单个话语结束令牌。9.根据权利要求1所述的方法,所述方法包括当令牌的词历史指定相同时,在所述WFST的所述相同节点中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合;当所述令牌传播时将在具有输出标记的WFST的弧处建立的词放置到词网格中;当多个令牌的词历史指定不同时,通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及当所述引用在所述多个令牌中的一个以上的令牌中是相同的时,对于所述新的活动令牌维持具有最佳分数的引用;将不同的值分配给将用作所述WFST的输出符号的可能词的词汇表中的各个词,以及使用对应于多个词的多个值确定所述词历史指定;以及将多个最终结束令牌组合成单个话语结束令牌;其中所述指定是通过使用递归散列函数形成的散列标签;其中所述词历史指定根据所述词序列内的词的顺序而不同;其中所述词历史指定是十六进制数;其中用添加到所述十六进制数的令牌的每个词更新所述十六进制数;并且其中根据所述令牌中的词的顺序而不同地更新所述十六进制数。10.一种计算机实施的语音识别的系统,所述系统包括:至少一个声学信号接收单元;至少一个处理器,其通信地连接到所述声学信号接收单元;至少一个存储器,其通信地耦合到所述至少一个处理器;以及加权有限状态变换器(WFST)解码器,其通信地耦合到所述处理器,并且:通过加权有限状态变换器(WFST)传播令牌,并且包括将词序列放置到词网格中,所述加权有限状态变换器(WFST)具有作为所述WFST的输出标记的词或词标识符;当在具有输出符号的所述WFST的弧处建立词时,生成用于各个令牌的词历史指定,其中所述词历史指定指示词序列;以及通过至少部分地使用所述词历史指定确定是否应当在所述WFST的状态中组合两个或更多个令牌以形成单个令牌。11.根据权利要求10所述的系统,其中所述WFST解码器在令牌的词历史指定相同时在所述WFST的所述相同状态中重新组合两个或更多个令牌,并且当两个或更多个令牌的词历史指定不相同时避免重新组合。12.根据权利要求10所述的系统,其中所述WFST解码器在令牌传播时将在具有输出标记的所述WFST的弧处建立的词放置到词网格中。13.根据权利要求12所述的系统,其中在多个令牌的词历史指定不同时,所述WFST解码器通过将多个令牌重新组合为单个新的活动令牌执行所述词网格的异常更新,并且包括:当所述多个令牌的词网格节点引用对来自所述多个令牌中的其他令牌的其他引用是唯一的时,将所述多个令牌的词网格节点引用放置到所述新的活动令牌中,以及当所述引用在所述多个令牌中的一个以上的令牌中相同时,对于新的活动令牌维持具有最佳分数的引用。14.根据权利要求10所述的系统,其中所述指定是通过使用递归散列函数形成的散列标签。15.根据权利要求1...

【专利技术属性】
技术研发人员:J·奥费G·施特默尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1