半监控说话者自适应制造技术

技术编号：3047507 阅读：207 留言：0更新日期：2012-04-11 18:40

在未受监控或在线自动语音识别系统中，为了防止对误识别字的自适应，置信度测量值被使用，或者用户的反应被解释以判断是否已识别的音节、几个音节、一个字、几个字或整个发音应该被用于说话者无关模型组到说话者自适应模型组的自适应，在自适应被执行的情况下，判断对该识别出的发音或部分识别出的发音进行多强的自适应。此外，说话者自适应性能的确认被进行以确保识别率永远不会（明显）降低，而只会升高或保持在同一水平。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动语音识别(ASR)，特别涉及执行自动语音识别系统的未受监控自适应或在线自适应的方法以及能够实现本专利技术方法的语音识别系统。本领域的语音识别器包括一组统计分布，这种分布模拟了某些语音片段的声学特性。这些声学特性被编码为特征矢量。作为一个例子，可以为每个音节做一个高斯分布。这些分布被挂接到某个状态上。(随机)状态转换网络(通常为隐马尔可夫模型)定义了状态序列和特征矢量序列的概率。通过一个状态需要利用一个特征矢量，该特征矢量覆盖例如长度为10ms的一帧语音信号。这种识别器的随机参数被利用大量的语音数据来训练，其中的语音数据如果来自单个说话者则产生说话者有关系统(SD)，如果来自多个说话者产生说话者无关系统(SI)。说话者自适应是广泛用来提高SI系统识别率的方法。说话者有关系统的技术产生比说话者无关系统更高的识别率。然而，对于很多应用，从单个说话者获得足够的数据来训练该系统是不容易的。在消费设备中，这一点甚至是不希望的。为了解决识别率中的误匹配，说话者自适应算法被广泛用来获得接近于说话者有关系统的识别率，但是与说话者有关系统相比，仅使用了一部分说话者有关数据。这些系统最初使用说话者无关模型，这些模型然后被调整以便更好地与说话者声学特性相匹配。通常地，这种自适应在监控下进行。即，说出的字是已知的，识别器被迫来识别它们。因此，特定片段分布的时间队列可以得到。这种实际特征矢量和对应分布参数之间的失配形成这种自适应的基础。受监控的自适应要求在每个新的说话者实际使用识别器之前，说话者都要进行自适应过程。图5给出根据以前技术的这种示例性语音识别系统的...

【技术保护点】
一种执行自动语音识别系统的不受监控的自适应和／或在线自适应的方法，特征在于，在所接收发音或部分的接收发音的辅助下，系统的自适应度是基于所述所接收发音或部分的接收发音的识别结果的可信度的。

【技术特征摘要】
EP 1998-12-17 98124024.51.一种执行自动语音识别系统的不受监控的自适应和/或在线自适应的方法，特征在于，在所接收发音或部分的接收发音的辅助下，系统的自适应度是基于所述所接收发音或部分的接收发音的识别结果的可信度的。2.根据权利要求1的方法，特征在于，当识别可信度大于一个阈值时，所述所接收发音或部分所述所接收发音被用于自适应，当识别可信度小于所述阈值时，所述所接收发音或部分所述所接收发音被抛弃。3.根据权利要求1或2的方法，特征在于，阈值是固定的或动态可变的。4.根据权利要求1到3中任何一个的方法，特征在于，所述所接收发音或部分所述所接收发音的识别结果的可信度是在置信度测量值的基础上被测量的。5.根据权利要求4的方法，特征在于，作为所述置信度测量值基础的参数和/或特征是自适应的。6.根据权利要求4或5的方法，特征在于，置信度测量值被针对发音、每个所接收发音或部分所接收发音的基于字或音节的置信度成绩来计算。7.根据权利要求6的方法，特征在于，所述置信度成绩确定所述所接收发音或部分所接收发音的识别结果的可信度。8.根据权利要求1到7中任何一个的方法，特征在于，所述所接收发音或部分所接收发音的识别结果的可信度在所述发音的说话者的反应的基础上被测量。9.根据权利要求8的方法，特征在于，所述反应是通过视觉计算机系统基于从用户或用户脸部得到的图象或视频序列而确定的。10.根据权利要求8或9的方法，特征在于，所述置信度测量值取决于说出所述发音的人的情绪状态。11.根据权利要求8到10中任何一个的方法，特征在于，所述反应是通过在所述所接收发音或部分所接收发音之后接收的发音或部分该发音的识别和解释来确定的。12.根据权利要求11的方法，特征在于，在所述所接收发音或部分所接收发音之后接收的发音或部分该发音被检查以找到表明以前接收到的发音是否被正确识别的预定关键字。13.根据权利要求10到14中任何一个的方法，特征在于，通过对所述所接收发音或部分所接收发音之后接收的发音或部分该发音的第二信息的解释来确定所述的反应。14.根据权利要求13的方法，特征在于，所述所接收发音或部分所接收发音之后接收的发音或部分该发音的所述第二信息是所述所接收发音或部分所接收发音之后接收的发音或部分该发音的音调和/或韵律。15.执行自动语音识别系统的不受监控的自适应和/或在线自适应的方法，其中，在所接收发音或部分所接收发音的辅助下，系统的自适应通过对一组参数的重复调整来执行，该方法的特征在于，在系统识别性能下降的情况下，至少一组以前的参数被存储来交换当前使用的参数。16.根据权利要求15的方法，特征在于，最初的参数组被存储。17.根据权利要求15或16的方法，特征在于，通过在所存储的以前参数和最新自适应参数的基础上比较实际的识别结果来判断系统的识别性能。18.根据权...

【专利技术属性】
技术研发人员：S戈伦兹，R科姆佩，P布赫纳，岩桥直人，
申请(专利权)人：索尼国际欧洲股份有限公司，索尼公司，
类型：发明
国别省市：DE[德国]

全部详细技术资料下载我是这个专利的主人