语音识别系统中评估发声的方法技术方案

技术编号:3047581 阅读:159 留言:0更新日期:2012-04-11 18:40
本公开内容提供在讲话者有关系统的框架内为检测词汇外发声而计算标准填料或废料模型的手段。具体说,本方法包括以下步骤:在语音识别系统中接收新训练数据(202);计算新训练数据的统计参数(204);根据统计参数为新训练数据计算全局统计参数(206);及根据全局统计参数更新废料模型(208)。当用户录用词汇时在线地执行以上步骤。废料模型最好是表示用户当前录用的全部语音数据的平均讲话者模型。废料模型优选地作为录用词汇过程的副产品而获取。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别系统,更具体地涉及一种在。大部分讲话者有关语音识别系统没有能力检测由于词汇外(OOV)词或被环境噪音所严重破坏的发声所引起的识别误差。其结果是,不必要的识别误差可能使用户失望和使本来可靠的语音识别系统的可察觉的优点显示不出来。误差检测是语音识别系统为改善它们总体可用性所必需的手段。对于一个单独的词,命令和控制型识别器而言,会遇到三类识别误差。第一类误差称为删除误差,当输入发声或未被识别为任何词或被识别为环境噪音时即发生此类误差。在此情况下,用户接口应恰当处理此类误差并重新提示用户重复该发声。第二类误差是插入误差,当用户未说任何词而系统识别一个不正确词时,发生这类误差。最后,第三类误差是替代误差,识别到不正确词而不是正确发声时发生此类误差。当用户或说有效词汇中词或不留意地输入OOV发声时这都能发生。在讲话者有关识别系统中,当用户试图选用他们并未录用的词或当它们已忘记以前录用过词的准确发声时,通常会输入词汇外发声。语音识别器也会将特别大的背景噪音或背景谈话误认为有效输入发声。所造成的替代和插入误差会最具有危害性,因系统可能因此启动非法操作,而以后用户还必须取消此操作。识别并恰当地处理这两类识别误差的能力可以显著提高语音识别系统的总体性能。此外,在语音识别系统用于手忙或眼忙情况(如开车时)的事件中,系统应避免要求用户付出不必要的注意力。已研究和实施了许多供单独的和连续型的识别系统用于检测识别误差的涉及基于阈值的可靠度度量的技术。已使用基于N-最佳维特比(Viterbi)搜索结果的可靠度度量。虽然这些技术对识别一定替代误差是有用的,但它们不是用于识别OOV的发生的合适方法。当考虑到低成本DSP实施时,基于N-最佳搜索方法的可靠度度量的不断增大的计算复杂性会是明显的缺点。现有技术的涉及OOV发声的排斥的讲话者无关系统是基于显式废料或填料模型的,该模型是在OOV发声的多讲话者数据库上离线训练的。该模型的特征是语音识别系统数据存储中词汇项目的参数化表示。模型的典型表示包括如动态时间反卷(DTW)型识别器中使用的常规模板,如隐藏马尔柯夫模型(HMM)识别器中现有的统计学表示,或用于表示多层人工神经网络(ANN)特征的一组加权系数。在显式废料模型中,当输入发声对应于一个OOV项目时,由标准Viterbi译码器得出的最佳匹配对应于废料模型。此方法学通常不适用于讲话者有关系统,因OOV发声数据库无法事先用于训练具体用户的离线模型的。此外,只为了训练在线废料模型的目的而要求用户提供一系列输入记号而不是正规用户词汇的一部分的做法也是不现实的。但另一个原先用于关键词辨认应用中的现有技术方法并不要求显式的填料模型。此方法基于平均局部废料值,该值是从每个时间帧的N-最佳值中计算而得。例如,一个帧可定义为一个时间段,在此时间段内自语音信号中提取出某些有关参数。此帧即成为识别器操作中的时间单元,一旦完成译码过程,将所识别发声的端点处的局部废料值求和,即可算出总废料值。然而,这种方法的缺点是总废料值在后处理步骤中计算,同时它依赖于对应于最佳词汇匹配的端点。这种方法也必然包含废料模型与所识别发声的完全对准,而这种强迫的对准可能不如依赖于单独模型用于处理OOV发生的技术有效和准确。因此,需要一种在讲话者有关系统的框架中计算用于检测OOV发声的标准废料模型的方法。附图说明图1是根据本专利技术的语音识别系统训练模块的功能框图;图2是根据本专利技术的讲话者有关声音识别系统中一种用于生成和更新废料模型的方法的流程图;图3是根据本专利技术的语音识别系统用的识别模块的功能框图;以及图4是一个流程图,用于显示一种根据本专利技术用于检测有效发声和排除词汇外发声的方法;以及图5是一个流程图,用于显示一种根据本专利技术的替代实施例的检测有效发声和排除词汇外发声的方法。本公开内容描述一种在线建模技术,它能排除不同操作环境中的OOV词和一些其它替代型误差。由于本公开内容中描述的方法提供更健壮的误差处理机制,减少用户可能碰到的烦恼,因此它改善了讲话者有关系统的总体可用性。本公开内容中描述的方法试图在不同环境条件下控制和减少替代或插入误差的出现,与此同时还试图尽少地排除那些相反地可以正确地由系统识别的发声(即误报警率)。具体说,本公开内容提供了一种在讲话者有关系统的框架中计算用于检测OOV发声的标准填料(或废料)模型的方法。当用户录用词汇时该方法在线地被执行,而废料模型作为录用词汇过程的副产品而被生成。因此,该方法不需要任何附加计算,而只需要最少的附加存储量。本公开内容的方法不需离线估算废料模型参数,也不需用户在此训练过程中提供可能的OOV发声。此公开内容中描述的废料模型可考虑为一个平均讲话者模型,表示当今用户录用的全部语音数据,并优选地在特征上和拓扑结构上类似于模型存储库中可用的所有其它正规词汇模型。当以与所有其它和标准词汇项目相关连的模型相同的方式处理废料模型时,最好使用加权系数以调整其局部补偿。与现有技术方法不同,为确认输入发声的有效性,不需要后处理或词端点计算。因为模型复杂性通常小于与正规词汇项目相关连的模型,因此本专利技术的技术对识别器的总体实时性能并无重大影响,而与此同时却对于可能的识别误差的辨别提供附加保证。在识别阶段,本专利技术的方法既与OOV项目匹配,也与那些和现有词汇模型中的一个并不很好匹配的词汇内发声匹配。考虑到训练阶段期间唯一可用数据是有效语音数据,用于确定废料模型的可能方法可以基于由用户随时提供的所有语音数据的均值。此平均或全局讲话者模型将然后在识别阶段中用于包涵甚广的模型的目的。与此包涵甚广的或废料模型相关连的值将比当讲出有效发声时正确模型的值更坏。另一方面,当存在OOV发声或由周围噪音严重歪曲的发声时,可以预料废料模型的值比与表示有效发声的模型相关连的任何值更好些。讲话者有关系统中所用训练算法非常适用于确定这类废料模型。根据本专利技术,废料模型作为训练过程副产品而生成,而其估算无需附加计算。讲话者有关系统最好基于HMM技术,其中每个HMM状态最好由单个高斯密度表征。每个高斯密度的参数,即平均向量和协方差矩阵最好如下计算。每个HMM状态的均值是根据模型的每个状态中的特征向量赋值估算的。协方差矩阵是根据在所有现有词汇项目的所有状态下存储起来以保证对环境变化的足够坚实性的数据来计算的。当更多词汇项目由用户训练时,将全局协方差矩阵更新以反映新数据。协方差矩阵及其相关的全局均值的精细化是用增量方式计算的,将现有统计学特性更新以考虑附加训练发声。此计算可由下列等式形式表示ΣN=11+NoN{1N[Σk=1NXkXkT]-(1+NoN)MNMNT+NoN(Σo+MoNoT)}]]>其中[Mo∑o]是先前迭代全局样本均值和样本协方差估值,MN是根据将被训练的重复的现有词汇项目的参数化的语音X的N个样本的样本均值,及∑N是基于先前统计学数据和现有数据两者的新全局协方差矩阵估值。然后每当用户训练一个新词汇项目时重复此更新过程。当可用更多数据时,可获得更坚实的协方差估值,后者然后替代所有训练的词汇项目的先前估值。这些表示所有用户语音的统计学信息的全局协方差和均值估值也可用于表征一个单状态本文档来自技高网...

【技术保护点】
一种在语音识别系统中评估发声的方法,所述方法包括以下步骤: 在所述语音识别系统中接收新训练数据; 为所述新训练数据计算统计参数; 根据所述统计参数为所述新训练数据计算全局统计参数;以及 根据所述全局统计参数更新一个废料模型。

【技术特征摘要】
US 1998-1-30 0162141.一种在语音识别系统中评估发声的方法,所述方法包括以下步骤在所述语音识别系统中接收新训练数据;为所述新训练数据计算统计参数;根据所述统计参数为所述新训练数据计算全局统计参数;以及根据所述全局统计参数更新一个废料模型。2.权利要求1的评估发声的方法,其中所述为所述新训练数据计算统计参数的步骤包括为所述新训练数据计算均值和协方差。3.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括为所述新训练数据计算全局均值和全局协方差。4.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括根据先前全局统计参数和所述统计参数为所述新训练数据计算全局统计参数。5.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括根据在开始训练过程之前自可用的训练数据的数据库中推导出的先前全局均值和先前全局方差及所述新数据的所述均值和所述方差来计算全局统计参数。6.权利要求1的评估发声的方法,其中所述更新废料模型的步骤包括生成单状态HMM。7.权利要求1的评估发声的方法,进一步包括接收新识别数据并将所述新识别数据的模型与先前存放于所述语音识别系统中的众多模型进行比较的步骤。8.权利要求7的评估发声的方法,其中所述比较所述新识别数据的模型的步骤进一步包括在逐帧基础上搜索数据和为每帧所述新识别数据生成每个模型的更新值的步骤。9.权利要求8的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。10.权利要求9的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。11.权利要求10的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。12.权利要求9的评估发声的方法,进一步包括以下步骤如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。13.权利要求9的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。14.权利要求7的评估发声的方法,其中所述比较所述新识别数据的模型的步骤包括在逐个模型基础上搜索数据和为所述新识别数据的每个模型生成一个更新值。15.权利要求14的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。16.权利要求15的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。17.权利要求16的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。18.权利要求15的评估发声的方法,进一步包括以下步骤如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。19.权利要求15的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。20.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤接收用户供给的训练数据;计算所述新训练数据统计参数;根据所述均值和所述协方差为所述新训练数据计算全局均值和全局方差;以及根据所述全局均值和所述全局协方差更新废料模型。21.权利要求20的评估发声的方法,其中计算所述新训练数据统计参数的步骤包括计算所述新训练数据的均值和协方差。22.权利要求20的评估发声的方法,其中所述计算全局统计参数的步骤包括计算所述新训...

【专利技术属性】
技术研发人员:爱德华斯普伦格杰弗里A穆昂尔威廉M库什纳
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1