有选择地把一罚值赋予语音识别系统所伴随概率的方法技术方案

技术编号:3047510 阅读:225 留言:0更新日期:2012-04-11 18:40
一语音识别系统(204、206、207、208)把一罚值赋予语音识别系统中的得分。该系统产生一个帧数较低阈值赋予至少一个模型的至少一个状态,它产生一个帧数较高阈值赋予至少一个模型的至少一个状态。在一分配赋值算法中,该系统把一脱离状态转移罚值赋予一脱离状态转移得分,如果较低阈值尚未达到的话。该脱离状态转移罚值与其保持时间低于较低阈值的帧数成比例。如果赋予一状态的帧数较高阈值已被超过的话,则把一自循环罚值加到一自循环得分上。脱离状态转移罚值与其保持时间超过较高阈值的帧数成比例。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于语音识别系统,更具体地说,是关于状态分配算法中的系统赋予概率(system assigning probability)。依赖于说话者的语音识别系统使用特征提取算法对输入语音的一帧完成信号处理,并输出代表每一帧的特征矢量。这一处理是以帧速率发生的。帧速率通常在10至30ms之间,这里将以20ms持续时间为例。已知有大量不同特征用于语音识别系统中。一般而言,训练算法使用从一个词或短语的一个或多个发音(utterance)的采样语音中提出的特征,来产生那个词或短语的模型。然后这个模型被存储在一个模型存储存储器中。然后在语音识别过程中应用这些模型。语音识别系统把未知发音的特征与被存储的模型参数作比较,以确定最好匹配。然后这最好匹配模型从识别系统输出,作为结果。已知使用基于识别系统的隐式马尔科夫模型(HMM)达到这一目的。HMM识别系统把发音的帧分配成HMM的状态。产生最大概率或得分的帧到状态(frame-to-state)分配被选作最好匹配。HMM的一个问题是它们假定一状态的持续时间有指数分布。这对于马尔科夫过程假设而言是重要的,它假定帧Ft的状态转移只依赖于系统在帧Ft-1的状态。这一模型对语音的拟合不特别好。由于这一原因,一些现代认别系统打破了马尔科夫假设,并赋予一个与状态持续时间相关的状态转移罚值(penalty)。具体地说,已知简单地把状态持续时间限定于最大值和最小值之间,这最大值和最小值是在训练过程中估计出来的。这样,一个硬的有界极限置于状态持续时间上,这样在允许状态转移之前分配给该状态最少数量帧,而一旦满足了最大状态保持时间,则不再允许额外的自循环。把状态持续时间信息用于确定转移概率,打破了马尔科夫过程假设,但通常产生更好的识别结果。含有大量训练数据的更复杂系统能精确地把状态转移概率作为状态持续时间的函数来建立模型。然而,对于少到只用二个发音来训练HMM的应用,则难于精确估计状态转移罚值的概率分布,因为训练数据量太少了。因此,这罚值可能产生错误的结果。其结果是需要一种改进的系统,它使用状态持续时间信息在具有最少训练信息的系统中产生转移罚值。附图说明图1是以方框图形式说明一无线电话的电路图。图2是以方框图形式说明根据图1的装置中的语音识别系统。图3说明一个左-右隐式马尔科夫模型,它带有两个被分成帧的相关语言发音。图4说明逆向追踪网格,它伴有左-右模型中的所有可能的状态转移路径,但不允许跳跃转移。图5说明与图4对应的由左到右、无跳跃的HMM。图6是说明训练算法的高层流程图。图7是说明设置上、下持续时间阈值的流程图。图8说明加到一个模型的一个状态上的罚值。图9是说明语音识别系统中的流程图。图10是说明在语音识别系统中把一罚值设置到一个得分上的流程图。这一有效方法把一转移罚值赋予一个脱离状态的转移得分,如果赋予该状态的帧数下限尚未达到的话。如果赋予一状态的帧数上限已被超过,则加上一个自循环罚值。对于已经达到下限之后的脱离状态转移不赋予罚值,对于超过上限之前的同状态转移也不赋予罚值。以只有小量的增加存储器大小和每秒执行数百万次指令(MIPS)的要求,便改善了语音识别系统的性能。自循环罚值能有效地应用于具有有限训练数据的系统,如只有两个训练发音的系统,借助这些训练发音来产生罚值。图1中公开的装置100中能有利地利用本专利技术。为了说明的目的,这里把装置100描述为一个便携式无线电话,但它可以是一个计算机、一个个人数字助理、或任何其他能有利地利用语音识别的装置,特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104,它们连于天线106。发射机102和接收机104连于一个呼叫处理器108。,它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路,来实现呼叫处理器108。呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM或类似存储器,或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作,包括语音识别操作,而且必须包括一个电子可变存储器以支持状态转移路径存储器,下文中将对此作更详细描述。可提供ROM用于存储该装置的操作程序。音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。呼叫处理器108与一显示处理器120相连。显示处理器是可选的,如果希望对装置100有附加的处理器支持的话。具体地说,显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元、它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。参考图2,由送话器114接收的音频信号在音频电路112的模-数转换器202中被转换成数字信号。本领域技术人员将会理解,音频电路112提供额外的信号处理,如滤波,为了简练,这里将不予描述。呼叫处理器108在送话器114输出模拟信号的被处理的数字信号表示上完成特征提取204,并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧,在这里所举的实施例中是20ms。这样,每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。在训练过程中,发音的特征矢量被用于建立HMM形式的样板,它们存储在存储器208中。在语音识别过程中,代表输入发音的特征矢量与在存储器208中存储的词汇词(vocabulary word)样板作比较,以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分,例如可以是EEPROM或闪烁ROM。如这里所用的那样,“词”可以是不只一个词,例如“John Doe”,或者单个词,如“call(呼叫)”。如前文概述的那样,存储器208中存储的词汇词是在训练方式下创建的。例如,所存储的词汇词在初始时每个是从两个训练信号,即发音U1和U2(图3)中提取出来的,由各自的特征矢量组成,发音U1代表在训练过程中说话者第一次说出一个特定词时所存储的信号。发音U2代表在训练过程中说话者第二次说出一个特定词时的信号。在所举出的实例中,发音U1的长度不同于发音U2。本领域技术人员将会理解,可以使用多些或少些发音。每个发音被分段成特征矢量帧。例如,帧可以是20ms长。可以以任何传统方式产生特征矢量。例如,特征矢量可以包含由A/D转换器202(图2)的输出产生的倒谱(cepstral)和δ-倒谱(delta-cepstral)特征。在这里所用的例子中,如图3-5所示,HMM有5个状态,它们的使用与发音的长度如何无关。本领域技术人员将会理解,可以使用任何数量的状态,而且可以预期对每个发音将利用10个以上状态。此外,状态数可以被固定而不管发音的长度如何,或者状态数可依赖于本文档来自技高网...

【技术保护点】
一种无线通信装置,包含: 送话器用于输入使用者的发音;以及 语音识别系统,其语音识别电路通过把发音帧分配给状态模型中的状态,产生被送话器检测到的使用者发音的状态模型,其中状态模型把比例罚值赋予状态赋值得分,这些罚值是对无线电话中存储的每个模型独立产生的。

【技术特征摘要】
US 1999-2-23 09/256,0311.一种无线通信装置,包含送话器用于输入使用者的发音;以及语音识别系统,其语音识别电路通过把发音帧分配给状态模型中的状态,产生被送话器检测到的使用者发音的状态模型,其中状态模型把比例罚值赋予状态赋值得分,这些罚值是对无线电话中存储的每个模型独立产生的。2.如权利要求1中定义的无线通信装置,还包含一种方法把一罚值赋予该语音识别系统中的一个得分,该方法包含下列步骤产生至少以下二者之一赋予至少一个模型的至少一个状态的帧数较低阈值;赋予至少一个模型的至少一个状态的帧数较高阈值;以及进行至少以下二者之一的赋值把一脱离状态转移罚值赋予一分配赋值算法中的脱离状态转移,如果较低阈值尚未达到的话;其中脱离状态转移罚值与保持时间低于较低阈值的帧的个数成比例;以及把一自循环罚值赋予一自循环得分,如果赋予一状态的帧数较高阈值被超过的话;其中脱离状态转移罚值与保持时间高于较高阈值的帧的个数成比例。3.如权利要求2中定义的无线通信装置,该方...

【专利技术属性】
技术研发人员:丹尼尔C鲍伯特
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1