一种声学语言模型训练方法和装置制造方法及图纸

技术编号：10301130 阅读：134 留言：0更新日期：2014-08-07 07:17

本发明专利技术实施方式提出一种声学语言模型训练方法和装置。方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。本发明专利技术实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术实施方式提出一种声学语言模型训练方法和装置。方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。本专利技术实施方式扩大了语言模型囊括的词汇数量，从而提高了语音识别系统的识别准确率。【专利说明】一种声学语言模型训练方法和装置
本专利技术实施方式涉及自然语言处理
，更具体地，涉及一种声学语言模型训练方法和装置。
技术介绍
随着计算机使用的日益普及，人们越来越期望能够与计算机直接进行语言交流，因为语言是人类进行沟通最方便、快捷、有效的方式。语音识别技术就是让计算机通过识别和理解过程，把人类语音信号转变为相应文本的一项技术，语言模型在其中扮演着提高语音识别正确率的重要角色。由于硬件性能和软件算法的局限，当前语音识别系统对语言模型大小有比较严格的限制。与此相对，语言模型随包含词汇数量的增加，其模型大小呈指数级增长。基于这两个原因，语音识别系统可容纳的词汇数量是不能无限扩充的。当前技术条件下，语音识别系统的词表容量上限在十几万的量级。对于词表之外的词汇，语音识别系统的识别准确率会下降很多。而且，在正常语言环境下，存在着百万量级的低频词汇。它们或者受关注时间较短(影视剧名)，或者受限于地域(餐馆饭店名)，或者仅出现于某一专业领域(专业术语)，等...

【技术保护点】
一种声学语言模型训练方法，其特征在于，该方法包括：利用无类别标签的语言模型对训练语料进行分词，以获得无类别标签的分词数据；对无类别标签的分词数据执行词类替换，以获得有类别标签的第一分词数据；对有类别标签的第一分词数据进行训练，以获得有类别标签的语言模型，并利用该有类别标签的语言模型对该训练语料进行分词，以获得有类别标签的第二分词数据；利用该有类别标签的第二分词数据获取声学语言模型。

【技术特征摘要】

【专利技术属性】
技术研发人员：陆读羚，李露，饶丰，陈波，卢鲤，张翔，王尔玉，岳帅，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人