一种声学语言模型训练方法和装置制造方法及图纸

技术编号:10301130 阅读:134 留言:0更新日期:2014-08-07 07:17
本发明专利技术实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本发明专利技术实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本专利技术实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。【专利说明】一种声学语言模型训练方法和装置
本专利技术实施方式涉及自然语言处理
,更具体地,涉及一种声学语言模型训练方法和装置。
技术介绍
随着计算机使用的日益普及,人们越来越期望能够与计算机直接进行语言交流,因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程,把人类语音信号转变为相应文本的一项技术,语言模型在其中扮演着提高语音识别正确率的重要角色。由于硬件性能和软件算法的局限,当前语音识别系统对语言模型大小有比较严格的限制。与此相对,语言模型随包含词汇数量的增加,其模型大小呈指数级增长。基于这两个原因,语音识别系统可容纳的词汇数量是不能无限扩充的。当前技术条件下,语音识别系统的词表容量上限在十几万的量级。对于词表之外的词汇,语音识别系统的识别准确率会下降很多。而且,在正常语言环境下,存在着百万量级的低频词汇。它们或者受关注时间较短(影视剧名),或者受限于地域(餐馆饭店名),或者仅出现于某一专业领域(专业术语),等等多种因素导致,单个词汇统计显著性很小,但整体数量庞大的低频词汇现象。因此,如何在不增加语言模型大小,以及尽量不损失模型计算精度的条件下,扩大语言模型囊括的词汇数量是一个迫切需要解决的技术问题。
技术实现思路
本专利技术实施方式提出一种声学语言模型训练方法,以扩大语言模型囊括的词汇数量,从而语音识别系统的识别准确率。本专利技术实施方式提出一种声学语言模型训练装置,以扩大语言模型囊括的词汇数量,从而提高语音识别系统的识别准确率。本专利技术实施方式的技术方案如下:—种声学语言模型训练方法,该方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。一种声学语言模型训练装置,该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元,其中:分词单元,用于利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;词类替换单元,用于对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;语言模型训练单元,用于对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;声学语言模型获取单元,用于利用该有类别标签的第二分词数据获取声学语言模型。从上述技术方案可以看出,在本专利技术实施方式中,利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。由此可见,应用本专利技术实施方式之后,实现了基于词类分词的声学语言模型训练。本专利技术实施方式可以采用类别标签替换语言模型训练文本中所有该类实体名,从而减少了语言模型中的词汇数量,而且当同类实体名在计算概率时,都采用语言模型中对应类别标签的参数。本专利技术实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。而且,本专利技术实施方式解决了语音识别系统词表容量有限所造成的词表范围之外的词汇识别效果不佳的问题。【专利附图】【附图说明】图1为根据本专利技术实施方式声学语言模型训练方法流程图;图2为根据本专利技术实施方式声学语言模型训练方法总体示意图;图3为根据本专利技术实施方式声学语言模型训练装置结构图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。在本专利技术实施方式中,充分考虑到词汇知识的以下特点:(I)、大量低频词汇是实体名,如:人名、书名、电影名等特征;(2)、同一类型的实体名其上下文信息通常具有相似性,如果将同类的不同实体名放入相同的上下文中几乎不影响句子的表意能力。比如:“我喜欢看“蜡笔小新”这部动画片,,与“我喜欢看“樱桃小丸子”这部动画片其表意能力非常类似。根据以上特点,本专利技术实施方式提出了一种基于词类分词的声学语言模型训练算法。语言模型经常使用在许多自然语言处理方面的应用,如语音识别、机器翻译、词性标注、,句法分析和资讯检索,等等。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑η元语法(N-gram)模型之原因。在本专利技术实施方式中,通过采用类别标签,替换语言模型训练文本中所有该类实体名。由于大量同类实体名在语言模型中被表示为同一个类别标签,因此本专利技术实施方式可以减少语言模型中的词汇数量。当同类实体名在计算概率时,都采用语言模型中对应类别标签的参数。对于未出现在训练文本中的实体名,只要代表这类实体名的类别标签存在,也可认为它与类别标签具有近似的概率分布。从效果上看,通过含有词类的语言模型,能够计算概率的词汇数量,要远远大于该语言模型真实包含的词汇和词类数量。正好可以解决,语音识别系统词表容量有限所造成的,词表范围之外的词汇识别效果不佳的问题。图1为根据本专利技术实施方式声学语言模型训练方法流程图。如图1所示,该方法包括:步骤101:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据。在这里,优选在利用无类别标签的语言模型对训练语料进行分词之前,对训练语料作归一化处理。归一化处理具体可以包括:大小写转换、全角半角转换、时间数据格式统——坐坐,寸寸ο具体地,此处采用各种类型的分词器使用初始的语言模型(即无类别标签的语言模型)对训练语料分词,以获得没有类别标签的分词结果。无类别标签的语言模型可以是以概率统计理论为基础,用来计算汉语语句概率的数学模型,它使得输出正确语句的概率大于输出错误语句的概率。例如,对于汉语输入的汉语语句“说明此处汉语语句的概率”,在统计语言模型中,该汉语语句可以分解为若干个词语,如:说明\此处\汉语\语句\的\概率。对于一个包含m (m为自然数)个词的汉语语句S = W1W2…Wm,根据Bayes理论,该汉语语句概率(输出正确的概率)可以分解为包含多个词语的条件概率的乘积,即:【权利要求】1.一种声学语言模型训练方法,其特征在于,该方法包括: 利用无类别标签的语言本文档来自技高网
...

【技术保护点】
一种声学语言模型训练方法,其特征在于,该方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:陆读羚李露饶丰陈波卢鲤张翔王尔玉岳帅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1