基于传感器的语音识别器选择、自适应和组合制造技术

技术编号:3046050 阅读:152 留言:0更新日期:2012-04-11 18:40
一种操作语音识别系统的方法,其中程序控制的识别器(1)执行下述步骤:    把语音信号分成多帧,并计算每帧的任意类型的特征向量,    用字符或字符组标记所述帧,每个音素产生多个标记,    根据预定的声学模型对所述标记解码,构成一个或多个单词或者一个单词的多个片段,    在所述方法中,多个识别器是可访问的,以便被激活进行语音识别,并且被组合以平衡由单个语音识别器进行的语音识别的结果,其特征在于下述步骤:    a)用传感器装置(5)收集(210、220、230、240)表征语音识别边界条件的选择基础数据,    b)利用(260)程序控制的判优装置(6)评估收集的数据,    c)根据所述评估,从多个可用的识别器中选择(290)最适合的识别器或其组合。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及计算机化语音识别的领域。
技术介绍
特别地,本专利技术涉及操作大词汇量语音识别系统的方法,其中程控识别器执行下述步骤1.把语音信号分解成长度不必相等的短的时间间隔,即帧,得到每帧的抽取的特征向量,例如包括谱系数,2.用字符或字符组标记帧,每帧产生多个标记,3.对所述标记解码,从而构成一个或多个单词或者一个单词的多个片段,4.在该方法中,多个识别器是可访问的,以便被激活进行语音识别,并且所述多个识别器基于请求被组合,以便改进单个识别器的语音识别结果。更特别地,上述这种连续语音识别器通过把依赖于上下文的子字单元,比如音子或三音子模拟成基本的隐马可夫模型(也称为“HMM”),捕捉语声的许多变化。这些模型的统计参数一般由数百小时的被标记训练数据估计得到。虽然如果训练数据与应用场景的声学特性充分相符,那么这提供高的识别精度,但是可以看出如果语音识别器不得不应付具有显著不同,并且可能高度动态变化的特性的声学环境,那么识别准确性显著降低。在线和(无)监督的批次自适应技术通过重新估计声学模型参数解决该问题,但是如果只存在很少量的数据和/或计算资源稀少,那么它们都是不可行的,或者-在批次自适应的情况下-不能正确地处理声学环境中的动态变化。目前的大词汇量连续语音识别器采用隐马可夫模型(HiddenMarkov Models(HMM))来根据语音信号,计算具有最大后验概率的单词序列w。隐马可夫模型是处理状态的有限集S={S1,...,SN},并且为状态被占用的每个时间t(t=1,2,...,T)的输出的观察创造条件的随机自动机A=(π,A,B)。初始状态向量π=[πi]=[P(s(1)=si)],1≤i≤N(1)给出在时间t=1时,HMM处于状态s1的概率,转换矩阵A=[aij]=[P(s(t+1)=sj|s(t)=si)],1≤i,j≤N(2)保持描述从状态si到sj的转换的一阶时间不变性过程的概率。观测值是从语音信号得到的连续取值的特征向量x∈R,输出概率由一组概率密度函数(这里也称为pdfs)定义B[bi]=[P(x|s(t)=si)],1≤i≤N(3)对于任意给定的HMM状态si,未知分布p(x|si)通常由基本高斯pdfs的混合物近似p(x|si)=Σj∈Mi(wji·N(x|μji,Γji))]]>=Σj∈Mi(wji·|2πΓji|-1/2·exp(-(x-μji)TΓji-1(x-μji)/2))---(4)]]>其中Mi是与状态si相关的高斯函数的集合。此外,x表示观测的特征向量,wji是第i个输出分布的第j个混合分量权重,μji和Γji是状态si下的第j个高斯函数的平均矩阵和协方差矩阵。要注意为了符号的简单性,从等式4省略了均值向量的状态和混合分量下标。现有技术的语音识别器通常由下述组件组成·计算允许信号的短小部分(帧)的分类的参数表示的特征抽取。频繁使用的特征是通常由能量值和它们的时间导数富集(enrich)的谱参数或Mel频标倒谱系数(MFCC)。·“打标记器”用表示可能有意义的子字单元,例如依赖于上下文的音子(phone)或子音子的许多标记标识每个特征向量。常见的特征向量的分类技术包括利用高斯混合密度的统计分类或者使用神经网络的分类。·“解码器”截取每个标记作为HMM的输出,并计算最大后验概率的单词序列。为了有效地处理来自标记步骤的可选择结果,采用搜索策略和修剪技术。流行的例子是异步栈解码和时间同步Viterbi(维特比)解码或集束搜索。最近已证明通过组合来自并行运行的几个基本识别器的(中间)结果,能够显著降低错字率。可以分出三种主要方法·计算特征的不同集合,并把它们组成为被传递给打标记器的单个特征向量的特征组合方法。·似然组合方法还计算不同的特征向量,但是独立地对它们分类。源于不同的标记步骤的结果根据其证据被组合,对于每一帧,备选标记的单一向量被传送给解码器。·ROVER(识别器输出表决错误减少)是一种使用动态编程技术把来自几个解码器传递的输出合并到单字假设网络中的后处理方法。在组合网络的每个分支点,后续的表决机构为最终的抄录选择分数最高的单词。这里提出的专利技术的主要目的是克服与这些方法相关的一些问题,同时保持增大的识别准确性。现有技术中已知如果用在未用训练数据正确表示的声学环境中,那么语音识别器的识别准确性显著降低。在诸如桌面口述之类的应用中,通过允许最终用户在不同的环境中登记到该系统中,能够容易地解决该问题,也可考虑输入特征向量的归一化的方法。但是,面对语音作为普遍计算中的输入媒介的重要作用,不允许提前的自适应步骤的应用的数目日益增大。此外,如果识别器不得不处理可能大量的动态变化的声学环境,那么由于缺少足够数量的在线自适应数据,或者由于计算资源有限,自适应方法可能变得不可行。具有极大量的参数的更准确的声学模型有助于克服这种情况,但是在这里报告的专利技术中针对的典型应用中是不可行的。除了其它许多应用之外,这些应用是诸如交互式话音响应解决方案,消费设备(移动电话机、PDA、家用电器)用话音驱动接口,和汽车中的资源短缺语音识别之类的应用。文献中已证明和单个基本识别器相比,上面提及的组合方法能够在嘈杂环境中产生明显更好的准确性。但是,这些方法对CPU施加了不断增大的计算负载,还需要数量增大的存储器来存储几个声学模型和中间结果;于是,它们不适合于资源短缺的语音识别器。
技术实现思路
于是,本专利技术的目的是提供一种语音识别方法和系统,它适合于说话者的环境中的动态改变的噪声,以及在由于资源有限,因此只具有有限的计算能力的(嵌入式)系统中运行的特定要求。本专利技术的目的由在公开的独立权利要求中陈述的特征实现。在各个从属权利要求中陈述了本专利技术的其它有利方案和实施例。现在应参考附加的权利要求。根据本专利技术的基本方面,提出在语音识别系统内执行下述步骤a)用传感器装置收集表征语音识别边界条件的选择基础数据,例如说话人,环境噪声,b)利用程序控制的传感装置评估收集的数据,即判定引擎,包括软件机构,物理传感器,它们的组合等,c)根据所述评估,从多个可用的识别器中选择最适合的识别器或者它们的组合。这样,在具有不断变化的噪声水平,并且其中已存在多个“检测装置”的环境中能够获得显著的优点。从而,传感器装置要被非常广泛地理解为能够提供所述选择基础数据的物理的或者呈逻辑程序形式的任意结构,所述选择基础数据可在存在或者不存在额外的用户输入的情况下被评估,以便由增加的知识将增大识别率的思想所启发,增加定义当前的讲话情景的细节的知识。从而,有利的是,传感器装置可以是判定逻辑,包括软件程序,它解释可由任何物理传感器,比如可检测以特定速度行驶,在特定车型中安装冬季和/或夏季轮胎(pneus)等而产生的噪声的麦克风,照相机,可从其它可用数据评估的噪声产生设备(例如通风机,音响设备)的ON/OFF位置检测的,或者可向用户请求的一些基础数据。当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种操作语音识别系统的方法,其中程序控制的识别器(1)执行下述步骤把语音信号分成多帧,并计算每帧的任意类型的特征向量,用字符或字符组标记所述帧,每个音素产生多个标记,根据预定的声学模型对所述标记解码,构成一个或多个单词或者一个单词的多个片段,在所述方法中,多个识别器是可访问的,以便被激活进行语音识别,并且被组合以平衡由单个语音识别器进行的语音识别的结果,其特征在于下述步骤a)用传感器装置(5)收集(210、220、230、240)表征语音识别边界条件的选择基础数据,b)利用(260)程序控制的判优装置(6)评估收集的数据,c)根据所述评估,从多个可用的识别器中选择(290)最适合的识别器或其组合。2.按照权利要求1所述的方法,其中所述传感器装置(5)是下述一个或多个判定逻辑,包括软件程序,物理传感器或者它们的组合。3.按照权利要求1所述的方法,还包括下述步骤a)在实现下述一个或多个的判定逻辑中处理(260)物理传感器(5)输出统计检验,...

【专利技术属性】
技术研发人员:沃尔克·菲舍尔谢格弗里德·昆兹曼
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利