语言模型的训练方法、训练装置及检验方法制造方法及图纸

技术编号:19821756 阅读:34 留言:0更新日期:2018-12-19 14:41
本发明专利技术公开了一种语言模型的训练方法、训练装置及检验方法。所述训练方法包括:以特定的字和/或词初始化字表和/或词表,使用字表和/或词表以及原存语料对语言模型进行训练,生成训练好的语言识别模型。采用本发明专利技术,可以解决现有技术中旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大量增加计算时间和成本的问题,大大增加了旧语料字表和词表全部包含新增语料中的字或词的概率,从而减少训练时间。

【技术实现步骤摘要】
语言模型的训练方法、训练装置及检验方法
本专利技术涉及计算机
,尤其涉及一种语言模型的训练方法、训练装置及检验方法。
技术介绍
现有语言模型的建立都是基于对语句或词组进行大量训练,字表和词表的生成也是基于使用语料内出现的字和词生成的。当有新的语料加入时(新的语料指的是其中含有已有旧语料未出现过的字或词),需要使用全部的旧语料加全部的新语料重新生成字表和词表,然后使用全部语料对语言模型重新训练。这种情况下会增加大量的计算时间和成本。例如,一般情况下,300小时到1200小时的语料中包含的字表的容量大约3000-5000字左右,但常用汉字大约8000字左右。当有新语料加入时,即使仅有一个未被包含的字出现,旧的模型将无法用来训练新语料,从而导致整个模型需要从头训练,造成训练时间和之前训练成果的浪费。现有技术是在训练样本齐全的前提条件下设计,但是当今社会是一个信息量不断增长的社会,现有的语言模型无法在信息不断增加过程中持续可用且不断进化。
技术实现思路
为了解决现有技术存在的旧语料字表和词表未能全部包含新语料中的字或词时需要使用全部的旧语料加新语料重新生成字表和词表对语言模型重新训练从而大本文档来自技高网...

【技术保护点】
1.一种语言模型的训练方法,其特征在于,包括:以特定的字和/或词初始化字表和/或词表;使用所述字表和/或词表以及原存语料对语言模型进行训练,生成训练好的语言识别模型。

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,包括:以特定的字和/或词初始化字表和/或词表;使用所述字表和/或词表以及原存语料对语言模型进行训练,生成训练好的语言识别模型。2.如权利要求1所述的语言模型的训练方法,其特征在于,当接收到新语料时,和/或当所述语言识别模型使用周期不小于设定值时,对所述语言识别模型进行增量训练。3.如权利要求2所述的语言模型的训练方法,其特征在于,当所述新语料的数量不小于设定的阈值时,和/或当所述新语料的字错误率和/或词错误率不小于设定的阈值时,对所述语言识别模型进行增量训练。4.如权利要求3中所述的语言模型的训练方法,其特征在于,当接收到所述新语料后先根据来源的不同对所述新语料进行分类,然后对每类所述新语料分别分析判断,当某一类或某几类所述新语料的数量不小于设定的阈值时和/或字错误率和/或词错误率不小于设定的阈值时,对所述语言识别模型进行增量训练。5.如权利要求2-4中任一项所述的语言模型的训练方法,其特征在于,所述增量训练包括:随机抽取部分现存语料或者使用全部现存语料对所述语言识别模型进行增量训练。6.如权利要求2-5中任一项所述的语言模型的训练方法,其特征在于,所述增量训练还包括:计算所述新语料的总数量为m个,随机抽取α*m个旧语料,将所述m个新语料与所述α*m个旧语料混合生成新旧语料混合集,使用所述新旧语料混合集对所述语言识别模型进行增量训练。7.如权利要求6所述的语言模型的训练方法,其特征在于,所述α的值不小于1。8.如...

【专利技术属性】
技术研发人员:郑权张峰聂颖
申请(专利权)人:龙马智芯珠海横琴科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1