半监控说话者自适应制造技术

技术编号:3047507 阅读:207 留言:0更新日期:2012-04-11 18:40
在未受监控或在线自动语音识别系统中,为了防止对误识别字的自适应,置信度测量值被使用,或者用户的反应被解释以判断是否已识别的音节、几个音节、一个字、几个字或整个发音应该被用于说话者无关模型组到说话者自适应模型组的自适应,在自适应被执行的情况下,判断对该识别出的发音或部分识别出的发音进行多强的自适应。此外,说话者自适应性能的确认被进行以确保识别率永远不会(明显)降低,而只会升高或保持在同一水平。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及自动语音识别(ASR),特别涉及执行自动语音识别系统的未受监控自适应或在线自适应的方法以及能够实现本专利技术方法的语音识别系统。本领域的语音识别器包括一组统计分布,这种分布模拟了某些语音片段的声学特性。这些声学特性被编码为特征矢量。作为一个例子,可以为每个音节做一个高斯分布。这些分布被挂接到某个状态上。(随机)状态转换网络(通常为隐马尔可夫模型)定义了状态序列和特征矢量序列的概率。通过一个状态需要利用一个特征矢量,该特征矢量覆盖例如长度为10ms的一帧语音信号。这种识别器的随机参数被利用大量的语音数据来训练,其中的语音数据如果来自单个说话者则产生说话者有关系统(SD),如果来自多个说话者产生说话者无关系统(SI)。说话者自适应是广泛用来提高SI系统识别率的方法。说话者有关系统的技术产生比说话者无关系统更高的识别率。然而,对于很多应用,从单个说话者获得足够的数据来训练该系统是不容易的。在消费设备中,这一点甚至是不希望的。为了解决识别率中的误匹配,说话者自适应算法被广泛用来获得接近于说话者有关系统的识别率,但是与说话者有关系统相比,仅使用了一部分说话者有关数据。这些系统最初使用说话者无关模型,这些模型然后被调整以便更好地与说话者声学特性相匹配。通常地,这种自适应在监控下进行。即,说出的字是已知的,识别器被迫来识别它们。因此,特定片段分布的时间队列可以得到。这种实际特征矢量和对应分布参数之间的失配形成这种自适应的基础。受监控的自适应要求在每个新的说话者实际使用识别器之前,说话者都要进行自适应过程。图5给出根据以前技术的这种示例性语音识别系统的方框图。麦克风51接收的说话者声音在连接到特征提取模块53的A/D转换台52中转换成数字信号,其中在特征提取单元53中,进行了特征提取来获得特征矢量,例如,每10ms得到一个。这种特征矢量被用于语音识别系统的训练或在训练之后用于最初说话者无关模型的自适应,并在识别器的使用中用于识别说话者的声音。为了训练,特征提取单元53通过开关54的触点a和c连接到训练模块55。在隐马尔可夫模型(HMM)下工作的示例语音识别系统的训练模块55获得一组说话者无关(SI)的HMM。这一点通常由自动语音识别设备的制造商通过利用包括很多不同说话者的大型数据库来执行。在语音识别系统调入一组SI模型之后,开关54的触点a和b被连接使得特征提取模块53提取的特征矢量被提供给识别模块57使得该系统可以被消费者使用并适应该消费者。然后识别模块57在所提取的特征矢量和说话者无关模型组的基础上计算识别结果。在对单个说话者进行适应的过程中,识别模块57被连接到自适应模块58,后一模块计算将要被存储于存储器59中的说话者自适应模型组。以后,识别模块57在所提取的特征矢量和说话者自适应模型组的基础上计算识别结果。说话者自适应模型的进一步自适应可以重复进行以便进一步提高针对特定说话者的系统特性。存在几种用于说话者自适应的方法,例如,最大后自适应(MAP)或最大似然性线性回归(MLLR)自适应。一般地,说话者自适应技术修正隐马尔可夫模型的参数使得他们与新说话者的声学特性更好地匹配。如上面陈述的,一般在批处理或离线自适应中进行。这意味着在说话者可以使用识别系统之前,他/她必须读到预定义的文本,然后进行自适应。一旦这一点完成,该系统可以被用于识别。这种模型也叫做受监控的自适应,因为文本对于系统来说是已知的,而且相应语音信号和对应于文本的模型之间的强迫组合被执行并被用于自适应。然而,未受监控的或在线的方法更适用于大多数的消费设备。在这种情况下,自适应发生于系统的使用过程中。识别后的声音被用于自适应,修正后的模型被用于下一发声的识别并且依此类推。在这种情况下,说出的文本对于本系统是未知的,但是不同的是,用到了已经识别出的字。EP0763816A2建议使用置信度测量值作为HMM训练的优化准则。这些置信度测量值是用于将识别结果分成“可能正确”或“可能不正确”的附加信息源。这里,置信度测量值被用于确认n个最佳识别的字符串,并且这种确认过程的结果,即,损耗函数的导数,被用作模型训练的优化准则。在这种情况下,所用的发音被用于训练,并且该方法被用于最大化可能混淆的字之间似然性的差值。然而,该文档仅涉及系统使用之前的HMM训练。另一方面,EP0773532A2揭示了一种通过说出一个预定的关键字″oops″来校正误识别的方法,之后使用者可能通过击键来校正误识别的字或者系统尝试自己校正误差。在任何情况下,系统在一个(序列)字被误识别时才训练/调整语音模型。本专利技术关注于利用未受监控或在线自适应对语音识别系统中的说话者无关隐马尔可夫模型的自适应。在这些系统中,在每个新发音或者甚至在部分发音之后,HMM必须被精确化。此外,进入系统的字不会被重复几次并且对于系统来说是未知的。因此,只有递增的说话者自适应是可能的,即,一次只能得到很少的自适应数据,并且另外会出现问题,即,误匹配的发生取决于说话者无关系统的性能,因为识别模块的输出必须被假定为正确的字。这些字然后被用于自适应,并且如果这个字被误识别,自适应算法将会以错误的方式修正该模型。当这种情况重复发生时,识别性能会急剧下降。因此,本专利技术的一个目标是提出一种用于解决上述与以前技术相联系的问题的未受监控自适应的方法和设备。本专利技术的方法在独立的权利要求1到17中被定义并且本专利技术的设备在独立的权利要求23中被定义。优选的实施方案分别在随后有关的权利要求中被定义。根据本专利技术,一种测量值表明了识别结果的可靠程度。系统的自适应是基于所述识别结果的可信度的。因此,根据本专利技术的方法被叫做半监控的说话者自适应,因为不需要任何的监控用户或用于自适应的固定词汇组。在可靠识别的情况下,发音可以被用来适应特定说话者,但是在不可靠识别中,该发音被抛弃以避免对模型的错误修正。另外,依据可信度,可以计算出一个权重来确定自适应的力度。本专利技术以及其用来判断是否用发音来作自适应的几个方法将从下面结合附图对示例实施方案的详细描述中得到更好的理解。附图说明图1给出根据本专利技术一个实施方案的语音识别系统;图2给出根据本专利技术的第一自适应方法,其中使用了置信度测量值;图3给出根据本专利技术的第二自适应方法,其中对话历史被查看;图4给出根据本专利技术切换回最初的说话者无关模型的方法;图5给出根据以前技术的示例语音识别系统。图2给出根据本专利技术的第一自适应方法,其中使用了置信度测量值以避免对误识别字的适应并确定自适应度。该方法在开始于步骤S21的无限循环中重复执行。在所述的第一步骤S21中,用户发音的识别按照根据以前技术的语音识别系统类似的方式进行。在接下来的步骤S22中,置信度测量值被用于步骤S21的识别结果中。在这个步骤中,置信度测量值被用来测量识别结果的可信度。在置信度测量值小于某一阈值时,所识别的字被认为是不可信的,并且将不被用于自适应,这样使得自适应过程在步骤S21重新开始,在该步骤中,进行下一个用户发音的识别。如果另一方面,置信度测量值大于阈值,识别结果被认为是可靠的并被用于步骤S23中的自适应,然后在步骤S21的自适应过程重新开始以识别下一个用户的发音。要计算根据本专利技术的置信度测量值,首先从识别假设和/或语音信号中提取一个本文档来自技高网...

【技术保护点】
一种执行自动语音识别系统的不受监控的自适应和/或在线自适应的方法,特征在于,在所接收发音或部分的接收发音的辅助下,系统的自适应度是基于所述所接收发音或部分的接收发音的识别结果的可信度的。

【技术特征摘要】
EP 1998-12-17 98124024.51.一种执行自动语音识别系统的不受监控的自适应和/或在线自适应的方法,特征在于,在所接收发音或部分的接收发音的辅助下,系统的自适应度是基于所述所接收发音或部分的接收发音的识别结果的可信度的。2.根据权利要求1的方法,特征在于,当识别可信度大于一个阈值时,所述所接收发音或部分所述所接收发音被用于自适应,当识别可信度小于所述阈值时,所述所接收发音或部分所述所接收发音被抛弃。3.根据权利要求1或2的方法,特征在于,阈值是固定的或动态可变的。4.根据权利要求1到3中任何一个的方法,特征在于,所述所接收发音或部分所述所接收发音的识别结果的可信度是在置信度测量值的基础上被测量的。5.根据权利要求4的方法,特征在于,作为所述置信度测量值基础的参数和/或特征是自适应的。6.根据权利要求4或5的方法,特征在于,置信度测量值被针对发音、每个所接收发音或部分所接收发音的基于字或音节的置信度成绩来计算。7.根据权利要求6的方法,特征在于,所述置信度成绩确定所述所接收发音或部分所接收发音的识别结果的可信度。8.根据权利要求1到7中任何一个的方法,特征在于,所述所接收发音或部分所接收发音的识别结果的可信度在所述发音的说话者的反应的基础上被测量。9.根据权利要求8的方法,特征在于,所述反应是通过视觉计算机系统基于从用户或用户脸部得到的图象或视频序列而确定的。10.根据权利要求8或9的方法,特征在于,所述置信度测量值取决于说出所述发音的人的情绪状态。11.根据权利要求8到10中任何一个的方法,特征在于,所述反应是通过在所述所接收发音或部分所接收发音之后接收的发音或部分该发音的识别和解释来确定的。12.根据权利要求11的方法,特征在于,在所述所接收发音或部分所接收发音之后接收的发音或部分该发音被检查以找到表明以前接收到的发音是否被正确识别的预定关键字。13.根据权利要求10到14中任何一个的方法,特征在于,通过对所述所接收发音或部分所接收发音之后接收的发音或部分该发音的第二信息的解释来确定所述的反应。14.根据权利要求13的方法,特征在于,所述所接收发音或部分所接收发音之后接收的发音或部分该发音的所述第二信息是所述所接收发音或部分所接收发音之后接收的发音或部分该发音的音调和/或韵律。15.执行自动语音识别系统的不受监控的自适应和/或在线自适应的方法,其中,在所接收发音或部分所接收发音的辅助下,系统的自适应通过对一组参数的重复调整来执行,该方法的特征在于,在系统识别性能下降的情况下,至少一组以前的参数被存储来交换当前使用的参数。16.根据权利要求15的方法,特征在于,最初的参数组被存储。17.根据权利要求15或16的方法,特征在于,通过在所存储的以前参数和最新自适应参数的基础上比较实际的识别结果来判断系统的识别性能。18.根据权...

【专利技术属性】
技术研发人员:S戈伦兹R科姆佩P布赫纳岩桥直人
申请(专利权)人:索尼国际欧洲股份有限公司索尼公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1