语音识别系统的自适应方法技术方案

技术编号:6852576 阅读:188 留言:0更新日期:2012-04-11 18:40
一种语音识别系统的自适应方法,所述方法包括:确定输入的语音信号的内容差异参数,以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度;从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足了数量累积条件的自适应方法,以执行自适应,其中,对语音识别系统的特征空间中的声音单元建立所述树形结构,从而以树形结构的形式对声音单元进行聚类。

【技术实现步骤摘要】

本专利技术涉及语音识别技术,更具体地讲,涉及语音识别的自适应方法。
技术介绍
近年来,语音识别技术已经取得了显著进步,在实验室环境下,识别精度已经高达 95%。近来,语音识别技术开始从实验室走向市场,并逐渐进入工业、家电、通信、汽车电子、 医疗、家庭服务、消费电子产品等各个领域。然而,语音识别系统的性能受许多因素的影响,这些因素包括不同的说话人、说话方式、环境噪音、传输信道等。当需要被识别的语音与训练语音识别系统时的条件不同时, 该语音不能被很好地识别。解决该问题的一个方案是利用尽可能多的数据进行训练,使得语音识别系统尽可能多地记住现实世界中存在的各种影响因素,从而提高识别精度。然而,要收集与各种影响因素有关的数据资源投入大,成本高。因此,寻找实现成本低,高效的解决方案一直是语音识别专业领域的研发课题之一。解决该问题的另一个方案是自适应技术。一个典型的自适应方案是用户在使用语音识别系统进行识别语音之前读取一些测试语句,从而语音识别系统根据这些测试语句的语音信号更新语音识别系统的参数来更好的适应该用户的语音。这样,同一用户在使用语音识别系统进行识别语音时,能够获得较高的识别精度。显然,上述两个方案中自适应技术所需的成本更小,并且更适于处理各种应用场景中的多种变化因素。图1和图2示出现有技术的两种自适应识别系统。在图1中,语音识别系统100包括前端处理单元110、特征提取单元120、解码单元130、网格重计分(lattice re-scoring)单元140和自适应单元150。前端处理单元110接收原始语音信号(例如,用户通过麦克风输入的原始语音信号),并对其进行前端处理(例如,区分语音和非语音信号时段、去除噪声等)。前端处理是指对原始语音信号进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。特征提取单元120从执行过前端处理的语音信号逐帧地提取特征,从而输出特征帧。特征提取必须在一段语音信号上进行,也即进行短时分析。这一段语音信号被认为是平稳的分析区间,被称之为帧。特征提取单元120通常提取Mel频率倒谱系数(MFCC)等特征。解码单元130利用提取的特征帧和声学模型(AM),以格(lattice)的形式输出发音假设(pronunciation hypothesis)(艮口,发音格(pronunciationlattice))。具体地说, 解码单元130基于输入的特征帧在AM模型空间中进行搜索,以定位最佳的一个或多个以声音表示符号表示的发音假设(即,发音候选)(例如,以拼音或音标形式表示的特征帧),从而输出该最佳的发音假设。网格表示发音的几种不同路径。网格重计分单元140利用语言模型(LM)和发音网格输出最后识别出的以文字(例如,汉字)表示的语音。自适应单元150根据用户输入的测试语句的语音信号来更新解码单元130所使用的AM模型的参数,从而该AM模型能够更好地适应特定的用户以及使用环境。在图2中,语音识别系统200包括前端处理单元210、特征提取单元220、图 (graph)解码单元230、自适应单元M0、字素音素转换(grapheme-to-phoneme,G2P)单元 250。前端处理单元210、特征提取单元220和自适应单元240分别与图1中的前端处理单元110、特征提取单元120和自适应单元150相同,将不再赘述。图表解码单元230利用AM和LM直接输出文字假设(即,最终识别的以文字(例如,汉字)表示的语音,例如,汉字)。字素音素转换单元250将图表解码单元230输出的文字假设转换为以声音表示符号表示的发音假设(即,网格假设)。常用的自适应方法包括本征空间(eigen space)方法、最大后验概率(MAP)方法、基于变换的自适应算法(例如,最大似然线性回归算法(MLLR))等。本征空间方法可以快速的实现自适应,然而基于本征空间的自适应方法的缺点是存在饱和度的问题。即,当输入的测试语音达到一定量后,自适应的结果不再改善。例如,第 2002010444号美国专利申请公开了一种基于本征空间的自适应方法,利用该方法当输入的测试语音多于10秒之后,自适应后的系统的性能不再改善。此外,虽然MAP方法和MLLR不存在饱和度的问题,然而却需要足够量或预定量的测试语音数据才能实现自适应处理。理想的自适应处理应具有如下特性速度快,即,需要输入少量的测试语音数据就可以通过自适应增强语音识别系统的适应性,从而提高识别精度;无人监督,即,不需要知道实际的语音内容来进行自适应;不存在饱和度的问题,即,测试语音数据越多,自适应后的语音识别系统的识别精度越高。然而,现有技术的自适应技术都无法实现少量的测试语音数据就可实现高效的自适应同时不存在饱和度的问题。
技术实现思路
本专利技术的目的在于提供一种语音识别的自适应方法,从而使语音识别系统的自适应处理能够实现如下特性速度快,即,需要输入少量的测试语音数据就可以通过自适应增强语音识别系统的适应性,从而提高识别精度;无人监督,即,不需要知道实际的语音内容来进行自适应;不存在饱和度的问题,即,测试语音数据越多,自适应后的语音识别系统的识别精度越高。本专利技术的一方面提供一种,包括确定输入的语音信号的内容差异参数,以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度;从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足了数据累积条件的自适应方法,以执行自适应, 其中,对语音识别系统的特征空间中的声音单元建立所述树形结构,从而以树形结构的形式对声音单元进行聚类。所述输入的语音信号可在自然语音时间段期间或固定时间段期间被输入。内容差异参数可以是对类累积的高斯混合的似然度AGML-C和对节点下的类累积的高斯混合的似然度AGML-N中的至少一个中的至少一个。AGML-C表示关于语音信号的预定特征帧,在所述树形结构中的一个类中的所有状态的所有高斯混合的似然度的累计值。AGML-N表示关于语音信号的预定特征帧,所述树形结构中的一个节点下的所有类的AGML-C之和。第一自适应方法可以是本征空间方法;第二自适应方法可以是线性变换方法;第三自适应方法可以是最大后验概率方法。所述方法还可包括确定输入的语音信号的数据量参数,基于输入的语音信号的数据量和内容差异参数来选择自适应方法,即,选择满足了数据量条件和数据累积条件的自适应方法。数据量参数可以是所述输入的语音信号的所有特征帧的时间长度。确定数据累积程度并根据内容差异参数来选择自适应方法的步骤包括确定数据量参数是否大于第一阈值;当确定数据量参数不大于第一阈值时,选择第一自适应方法; 当确定数据量参数大于第一阈值时,确定关于输入的语音信号中的预定特征帧,所述树形结构的中间层的所有类的AGML-C是否都大于第二阈值;当确定不都大于第二阈值时,选择第一自适应方法。当确定都大于第二阈值时,选择第二自适应方法。当确定都大于第二阈值时,确定关于所述预定特征帧所述树形结构的低层的所有类的AGML-C是否都大于第三阈值;当确定都大于第三阈值时,选择第三自适应方法;当确定不都大于第三阈值时,选择第二自适应方法。当确定都大于第二阈值本文档来自技高网
...

【技术保护点】
1.一种语音识别系统的自适应方法,包括:确定输入的语音信号的内容差异参数,以确定输入的语音信号在树形结构的高层、中间层和低层的数据累积程度;从适于使用树形结构的高层的类的第一自适应方法、中间层的类的第二自适应方法和低层的类的第三自适应方法中选择满足了数据累积条件的自适应方法,以执行自适应,其中,对语音识别系统的特征空间中的声音单元建立所述树形结构,从而以树形结构的形式对声音单元进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:史媛媛
申请(专利权)人:三星电子株式会社北京三星通信技术研究有限公司
类型:发明
国别省市:KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1