语言模型的训练方法和预测方法技术

技术编号:22022171 阅读:53 留言:0更新日期:2019-09-04 01:16
本申请提出一种语言模型训练方法和预测方法,其中,训练方法包括:获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。该方法在模型的解码端引入受限词表,模型训练时充分利用原词信息,使得语言模型对易混淆词更容易区分,提升了语言模型在错误检测或错误纠正等任务上的效果。

Training and Prediction Methods of Language Model

【技术实现步骤摘要】
语言模型的训练方法和预测方法
本申请涉及计算机
,尤其涉及一种语言模型的训练方法和预测方法。
技术介绍
目前,基于循环神经网络(RecurrentNeuralNetwork,简称RNN)的语言模型解码端的解码候选集是整个词表空间(例如,基于汉字字典/分词词典),语言模型的解码空间过大、导致模型复杂度高难以收敛,使得对易混淆词的区分度降低,降低了语言模型在错误检测或错误纠错等任务上的效果。
技术实现思路
本申请提出一种语言模型的训练方法和预测方法,用于解决相关技术中基于RNN语言模型对易混淆词的区分度降低、在错误检测或错误纠错等任务上的效果差的问题。本申请一方面实施例提出了一种语言模型的训练方法,包括:获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;生成被替换的字或词的受限词表;根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。本申请实施例的语言模型的训练方法本文档来自技高网...

【技术保护点】
1.一种语言模型的训练方法,其特征在于,包括:获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;生成被替换的字或词的受限词表;根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,包括:获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;生成被替换的字或词的受限词表;根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。2.如权利要求1所述的语言模型的训练方法,其特征在于,所述根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布,包括:根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;根据所述目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。3.如权利要求2所述的语言模型的训练方法,其特征在于,所述根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示,包括:根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;根据所述掩码替换后的文本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。4.如权利要求1所述的语言模型的训练方法,其特征在于,所述生成被替换的字或词的受限词表,包括:以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。5.如权利要求4所述的语言模型的训练方法,其特征在于,若结合上下文查询的词典的数量至少为两个,所述以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,包括:以所述被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合;根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。6.一种语言模型的预测方法,其特征在于,包括:获取待预测文本序列,并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置;对所述目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;生成被替换的字或词的受限词表;根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布;以及根据在所述受限词表空间上的概率分布生成预测结果。7.如权利要求6所述的语言模型的预测方法,其特征在于,所述根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布,包括:根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;根据所述目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。8.如权利要求7所述的语言模型的预测方法,其特征在于,所述根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示,包括:根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;根据所述掩码替换后的本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。9.如权利要求6所述的语言模型的预测方法,其特征在于,所述生成被替换的字或词的受限词表,包括:以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。10.如权利要求9所述的语言模型的预测方法,其特征在于,若结合上下文查询的词典的数量至少为两个,所述以所述被替换字或词为中心,结合上下文查询词典,生成所述受限词表,包括:以所述被替换的字或词为中心结合上下文,通过查询各词典得到生成受限词表的候选字或词集合;根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。11.一种语言模型的训练装置,其特征在于,包括:获取模块,用于获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;替换模块,用于对所述目标位置处的字或词进行掩码替...

【专利技术属性】
技术研发人员:罗希意邓卓彬赖佳伟付志宏何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1