用于语音识别的n元文法模型构造方法及语音识别系统技术方案

技术编号:12730621 阅读:82 留言:0更新日期:2016-01-20 14:30
本发明专利技术提供一种用于语音识别的n元文法模型构造方法及语音识别系统,所述方法包含:步骤101)通过神经网络语言模型训练得到词矢量,再对词矢量进行分类以及多层筛选,最终得到词类;步骤102)利用直接统计词频的方法扩充人工标注,即同类词替换时,直接统计与原句有变化的1至n元文法组合,进而得到扩充部分的n元文法模型;步骤103)人工标注生成初步的n元文法模型,再与扩充部分的n元文法模型进行模型插值,得到最终的n元文法模型。所述步骤101)进一步包含:步骤101-1)输入标注及训练文本;步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量;步骤101-3)用K均值法对词矢量分类;步骤101-4)对分类结果进行多层筛选,最终得到词类。

【技术实现步骤摘要】

本专利技术涉及一种在语音识别中,利用词矢量分类来扩展人工标注训练语料,以提 升语言模型的方法,具体提供一种用于语音识别的η元文法模型构造方法及语音识别系 统。
技术介绍
目前采用的语言模型建模技术主要是η元文法语言模型(n-gram Language Model)。该模型因其训练简单,复杂度低,使用方便等优势,在语音识别领域得到广泛的应 用。但是,η元文法模型核心思想是通过词频统计来建模,在资源匮乏的领域,比如面向电 话交谈的语音(CTS)识别系统,由于语料规模是有限的,存在大量训练语料中没有出现的 文法组合,只能依靠平滑算法给那些概率为零的文法附上一个很小的概率。即使如此,数据 稀疏问题依然是效果不理想的主要原因。 η元文法语言模型运用于语音识别领域,实践表明用户语音的人工标注的加入对 于模型性能的提升是效果显著。但是人工标注的获得费时费力,因此数据量十分有限,如何 更充分地利用人工标注语料成为人们的研究目标。常用做法是依据标注的文法规则特点, 扩展出更多风格相近的语料,加入到模型中。之前的研究在这一问题上提出了一些方法,t匕 如依据已有的句子总结出一些句型,对于空缺的词利用同义词词林进行同义词扩展;也有 利用互信息来对词典进行分类,产生的词类用于扩展语料。 近年来,神经网络建模技术在语言模型中得到应用。η元文法语言模型是在离散空 间上建模,词与词相互之间仅有语法结构上的联系,并无语义上的联系。而神经网络模型在 连续空间建模,能有效挖掘更深层的语言信息。词矢量是神经网络建模过程中可得到的产 物,每个词由一个远小于词典词个数的维度的矢量表示,矢量维度大大小于词典词个数,词 的特征、以及词与词之间的关系信息就蕴藏在矢量中。词矢量的这一特性在自然语言理解 领域中得到应用。本专利技术是将词矢量应用到语音识别的语言模型提升中,利用词矢量来获 得词典中词相互间的相似度,按相似度将词典中的词分为若干词类,对标注语料的词进行 同类词扩展以达到丰富语料的目的。
技术实现思路
本专利技术的目的在于,为有效缓解语音识别领域中常用的η元文法语言模型数据稀 疏的问题,本专利技术提供了一种用于语音识别的η元文法模型构造方法及语音识别系统。 为了实现上述目的,本专利技术提供一种用于语音识别的η元文法模型构造方法,所 述方法包含: 步骤101)通过神经网络语言模型训练得到词矢量,再对词矢量进行分类以及多 层筛选,最终得到词类; 步骤102)利用直接统计词频的方法扩充人工标注,即同类词替换时,直接统计与 原句有变化的1至η元文法组合,进而得到扩充部分的η元文法模型; 步骤103)人工标注生成初步的η元文法模型,再与扩充部分的η元文法模型进行 模型插值,得到最终的η元文法模型。 可选的,上述步骤101)进一步包含: 步骤101-1)输入标注及训练文本; 步骤101-2)通过神经网络语言模型训练得到词典中的词的相应词矢量; 步骤101-3)用K均值法对词矢量分类,其中词矢量间的相似程度用余弦相似度进 行统计; 步骤101-4)对分类结果进行多层筛选,最终得到词类。 可选的,上述步骤102)进一步包含: 步骤102-1)将标注文本中的词对应至步骤101)得到的词类,由相应分类中的词 替换; 步骤102-2)替换过程中,对与替换部分有关联的1至η元文法组合进行词频信息 的统计; 步骤102-3)根据词频信息生成标注扩充部分的η元文法语言模型Β。 可选的,上述步骤103)进一步包含: 步骤103-1)生成人工标注部分的η元文法语言模型A ; 步骤103-2)计算模型A和模型B在开发集上的最佳插值系数,根据该系数插值模 型A和模型Β,得到最终模型。 此外,本专利技术还提供了一种基于该η元文法模型的语音识别系统。 与现有技术相比,本专利技术的技术优势在于: 本专利技术利用神经网络深入挖掘词间信息,缓解语料的稀疏性,优化了语言模型部 分,使其在语音识别系统中更有效地控制解码器搜索路径、提高解码速度和识别正确率。【附图说明】 图1是词矢量扩展人工标注流程图; 图2是神经网络语言模型结构图; 图3语音识别系统基本构架。【具体实施方式】 下面结合附图和具体实施例对本专利技术的方案进行详细的说明。 本专利技术提供的依据词矢量扩展人工标注流程的η元文法模型构造方法的流程如 图1所示,具体包含: 1、词矢量训练:通过神经网络语言模型训练得到词典中的词的相应词矢量。训练 采用经典的NNLM形式,其结构图如图2所示。 模型由输入层、映射层、隐层及输出层构成。词典中的每个词由一个维度为词典大 小的矢量表示,矢量在该词的位置上为1,其余维度为0。对于η元模型,输入层输入的是 "η-1"个词矢量相连组成的长矢量,输出层输出已知η-1个词,第η个词为词典中任意一个 词的概率。其中,经过共享矩阵C,离散分布的矢量被映射至连续空间,所需的词矢量从矩阵 C中获得。 2、词矢量分类:用K均值法对词矢量分类,矢量间的相似程度用余弦相似度来统 计。余弦相似度公式如公式⑵所示,表示两个向量€,€之间的夹角的余弦值。在自然语 言理解领域中,常用该值来判断向量的相似程度。夹角越小,就代表越相似。 词典中的词被分为若干词类后,再对分类结果作多层筛选。最终得到的词类,类内 的词之间可视为词义及用法相近。 3、人工标注扩展:扩展人工标注,即对于句子中属于某类的词用该类其他词替代, 得到新的句子。这样做相当于将人工标注看成句型,用同类词进行填充,但是这不同于传 统意义的句型构造,因为这样的句型非人工获得,形式更丰富,用于填充的词词性也更多样 化。 在扩展过程中,有些句子较长,涉及需替换的位置较多;或是有些词相应的类中词 数较多,同一位置可替换的词多。这些情况使得有些句子一句被扩展成上百句,而有些只扩 展出个位数。扩展出句数多的句子,除了替换词的位置,其它部分会被反复复制,这使得新 扩展出来的文法组合被不断复制的部分稀释。因此实际的扩展直接在词频统计层完成,即 同类词替换时,直接计上与原句有变化的1至η元文法组合。这样做相当于提前完成了模 型训练时的词频统计,节省余下步骤的时间。 4、新语言模型生成:由于标注扩展后的文本量远大于人工标注,质量上来说,人工 标注的质量依然高于标注扩展,因此新的语言模型生成不是将两部分文本直接混合,而是 采用模型插值的方法,以保证人工标注不被稀释。 本专利技术通过以上几个部分的操作,获得合理的词矢量分类结果,扩展人工标注语 料,与原始人工标注结合,得到最终的语言模型,缓解了人工标注数据少的问题,提升语言 模型的性能,在语音识别应用中有稳定效果。 下面对本专利技术运用于语音识别过程的方案作进一步描述。 一、语言模型及声学模型准备 a.语言模型 1、处理训练文本及标注:训练文本用于词矢量的训练,与标注领域越接近,文本量 越大,越有利于训练的充分性。实际使用中,文本量达到G级的词数时训练较为充分。标注 为语音的手工标注文本。标注文本的处理比较简单,如有标注中使用的特殊符合直接去掉, 再进行分词;训练文本的处理包括去除标点符号、去除特殊符号、分词等。任务如为中文任 务,训练文本也以中文为主,一般建议去掉训练文本中含多个英文词的语句,因为此类中英 文混合当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种用于语音识别的n元文法模型构造方法,所述方法包含:步骤101)通过神经网络语言模型训练得到词矢量,再对词矢量进行分类以及多层筛选,最终得到词类;步骤102)利用直接统计词频的方法扩充人工标注,即同类词替换时,直接统计与原句有变化的1至n元文法组合,进而得到扩充部分的n元文法模型;步骤103)人工标注生成初步的n元文法模型,再与扩充部分的n元文法模型进行模型插值,得到最终的n元文法模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:张晴晴陈梦喆潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1