语音识别系统中的逆向追踪矩阵存储方法技术方案

技术编号:3047511 阅读:224 留言:0更新日期:2012-04-11 18:40
一个装置(100)包括一个语音识别系统(204、206、207、208),它产生代表语言发音的信号,语言被分解成代表该语音的帧(Ft)。利用一对位算法把帧分配到状态(s1-s5)。利用状态转移类型把代表帧到状态分配的路径存储到存储器(110)中,这里状态转移类型标识到每个状态的状态转移。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
本申请涉及语音识别,更具体地说是涉及语音识别系统中存储逆向追踪网格信息的方法。在一个依赖说话者的语音识别系统中,使用者必须登录他们在使用该系统时所希望得到的词汇词。一个词汇“词”可以是单个的被说出的词或一个短语,而所选择的词汇词依赖于具体的应用。例如,在便携式无线电话中语音识别的实现可能需要使用者提供经常被呼叫者的名字和地址(例如“Fred办公室”),或在用户界面中通常可得到的常用特性所用的命令(例如“蓄电池安时计”,“消息”,或“电话锁定”)。在登录过程中,语音识别系统响应使用者的输入,对每个词汇词提取出代表样板。在一些系统中,这种样板由一个含有一系列状态的隐式马尔科夫模型(HMM)表示。每个状态表示一个语言发音(utterance)的有限一段这里使用“发音”表示一个“词汇词”,它可以包含一个或多个词。HMM的每个状态的统计表示是使用由使用者发音的具体词汇词的一个或多个登录语音样本计算出来的。这是通过帧的状态赋值(frame-to-state assignment)来完成的。这种状态赋值用于训练和语音识别两种操作方式。具体地说,被赋值的状态用于在训练方式中建立模型,该模型在语音识别方式过程中作为比较基准。在语音识别操作方式中,对输入发音的赋值能用于产生得分(score)信息和把输入的发音与所存储参考模型进行比较。对位算法(alignment algorithm),例如Viterbi算法,用于发音的帧到状态对位。这种对位算法提供了语言发音对模型的最好匹配,用于把词汇词发音的每一帧赋予该模型的单个状态。利用这一赋值能改善对每个状态的统计表示。在帧对位过程中,通过找出发音帧与模型中状态的最佳匹配来定义一个“路径”。为做到这一点,在每一帧对HMM的每个状态进行估值。如果被考查的语音已达到帧t,则这一估值过程的一部分确定哪些状态导致的给定状态在帧t-1处是最佳的。态。对于被完整连接的HMM,任何状态都能转移到其他状态。所以,N个路径进入每个状态是可能的,这里N是状态数。利用这种技术,在对位算法过程中需要跟踪哪些语音帧被映射到模型中的每个状态。如果使用传统的技术,这需要大的存储器。现有技术方法使用一个阵列,称作逆向追踪(traceback)矩阵,用于存储每个帧的信息,详细说明到达每个状态的最好路径。这通常需要一个大小为N×T的阵列,这里N是模型中的状态数,T是在一个发音中的最大帧数。由于N等于20和T等于300是常有的事,这种实现需要6000字存储器。为了能在便携式装置上实现依赖于说话者的训练算法,例如在无线通信装置上,在那里只有很小的随机存储存储器(RAM)能被利用,因此需要有一种用于存储逆向追踪信息的技术使所需存储器最小。于是,需要一种方法,它能在较小的存储器中存储为训练一个HMM所需的逆向追踪信息。附图说明图1是以方框图形式说明一无线电话的电路图。图2是以方框图形式说明根据图1的无线电话中的,语音识别电路的输入电路。图3说明一个左到右隐式马尔科夫模型,它带有两个被分成帧的相关语言发音。图4说明逆向追踪网格,它伴有左到右模型中的所有可能的状态转移路径,但不允许跳跃转移。图5是使用状态转移类型记录的逆向追踪路径的状态转移路径的存储器阵列。图6是说明在对位算法中信息存储的流程图。图7是说明对最好路径产生帧到状态对位操作的流程图。图8说明对应于图4的左到右无跳跃HMM。图9是能用于图6流程图的部分流程图,以包含一个状态跳跃。图10是能用于图7流程图的部分流程图,以包含一个状态跳跃。这里公开一种用于语音识别的逆向追踪矩阵更新和存储的方法。在一依赖于说话者的登录过程中,说话者提供被登录语言发音的一次或多次重复。使用帧对位过程使这些发音的每一个匹配于一个现有的隐式马尔科夫模型。在完成这一过程中,记录发音中的短时分析帧和模型的各状态之间对应关系的方法的有效性受到为每个状态和帧存储转移类型(transition type)的影响。图1中公开的装置100中能有利地利用本专利技术。为了说明的目的,这里把装置100描述为一个便携式无线电话,但它可以是一个计算机、一个个人数字助理或任何其他能有利地利用语音识别的装置,特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104,它们连于天线106。发射机102和接收机104连于一个呼叫处理器108,它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路,来实现呼叫处理器108。呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM或类似存储器,或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作,包括语音识别操作,而且必须包括一个电子可变存储器以支持状态转移路径存储器。下文中将对此作更详细描述。可提供ROM用于存储该装置的操作程序。音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。呼叫处理器108与一显示处理器120相连。显示处理器是可选的,如果希望对装置100有附加的处理器支持的话。具体地说,显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元,它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。参考图2,由送话器114接收的音频信号在音频电路112的模一数转换器202中被转换成数字信号。本领域技术人员将会理解,音频电路112提供额外的信号处理,如滤波,为了简练,这里将不予描述。呼叫处理器108在送话器114输出模拟信号的被处理的数字信号表示上完成特征提取204,并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧,在这里所举的实施例中是20ms。这样,每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。在训练过程中,发音的特征矢量被用于建立HMM形式的样板,它们存储在存储器208中。在语音识别过程中,代表输入发音的特征矢量与在存储器208中存储的词汇词样板作比较,以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分,例如可以是EEPROM或闪烁ROM。如这里所用的那样,“词”可以是不只一个词,例如“John Doe”,或单个词,如“call(呼叫)”。如前文概述的那样,存储器208中存储的词汇词是在训练方式下创建的。例如,所存储的词汇词在初始时每个是从两个训练信号,即发音U1和U2(图3)中提取出来的,由各自的特征矢量组成,发音U1代表在训练过程中说话者第一次说出一个特定词时所存储的信号。发音U2代表在训练过程中说话者第二次说出一个特定词时的信号。在所举出的实例中,发音U1的长度不同于发音U2。本领域技术人中将会理解本文档来自技高网...

【技术保护点】
一种语音识别装置,含有如下步骤: 接收一个语言发音; 产生一个代表该语言发音的信号; 把代表该发音的信号分成帧; 用一种对位算法把帧分配成状态;以及 通过对每个状态把一状态转移类型存储到存储器中来存储代表帧到状态分配的路径,这里状态转移类型标识到每个状态的状态转移。

【技术特征摘要】
US 1999-2-23 09/257,5521.一种语音识别装置,含有如下步骤接收一个语言发音;产生一个代表该语言发音的信号;把代表该发音的信号分成帧;用一种对位算法把帧分配成状态;以及通过对每个状态把一状态转移类型存储到存储器中来存储代表帧到状态分配的路径,这里状态转移类型标识到每个状态的状态转移。2.如权利要求1中定义的方法,这里存储器为每个状态存储到该状态的最好路径。3.如权利要求1中定义的方法,这里状态转移类型是由一二进制信号表示。4.如权利要求3中定义的方法,这里二进制信号是...

【专利技术属性】
技术研发人员:杰弗里阿瑟缪尼尔丹尼尔查尔斯鲍伯特
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1