文本处理模型训练方法、语音文本处理方法及装置制造方法及图纸

技术编号:30140600 阅读:25 留言:0更新日期:2021-09-23 15:02
本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置,涉及自然语言处理技术领域。该方法包括:从互联网爬取对话文本,得到正样本;对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息;将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。根据本申请实施例,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。占用大的问题。占用大的问题。

【技术实现步骤摘要】
文本处理模型训练方法、语音文本处理方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理模型训练方法、语音文本处理方法及装置。

技术介绍

[0002]随着自然语言处理技术的发展和人们对高效率的需求,语音识别技术已经被广泛地应用于生活的各个领域,如将会议内容录音后转换文本作为会议纪要;对老师讲课的录音内容转换成文本作为课堂笔记等等。
[0003]目前,为了能够准确地识别将语音转换成文本,且转换的文本能够易于用户理解,需要对识别的语音转换成文本,然后再对文本进行校对,从而得到易于用户理解的文本。但是,相关技术中对文本校对的模型在训练时,由于缺乏足量的训练样本,模型难以训练,且即使成功,得到的文本校对模型也需要进行多次迭代来完成文本校对,因此,耗时较长,效率低,且计算资源占用大。

技术实现思路

[0004]本申请实施例提供了一种文本处理模型训练方法、语音文本处理方法及装置,能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
[0005]第一方面,本申请实施例提供了文本处理模型训练方法,该方法包括:
[0006]从互联网爬取对话文本,得到正样本;对话文本中的语句为语法正确的语句,正样本为对话文本中的语句;
[0007]对对话文本中的语句进行变换操作,得到负样本和负样本的第一标签信息,负样本中的语句为语法错误的语句,第一标签信息表示将正样本变换为负样本的变换序列;
[0008]将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量;第二文本处理模型的维度小于第一文本处理模型,第一文本处理模型是根据正样本、负样本和负样本的变换序列训练得到的;
[0009]根据第一特征向量、第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。
[0010]在一种可能的实现方式中,在第一文本处理模型的层数与第二文本处理模型的层数相同的情况下,第一特征向量包括第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对负样本进行校对的第一预测校对向量,第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对负样本进行校对的第二预测校对向量。
[0011]在一种可能的实现方式中,根据第一特征向量和第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型,包括:
[0012]根据第一文本处理模型的维度和第二文本处理模型的维度,确定投影矩阵;
[0013]根据投影矩阵、第一输入层特征向量和第二输入层特征向量,计算第一文本处理
模型的输入层和第二文本处理模型的输入层之间的第一均方差损失;
[0014]根据投影矩阵、第一隐藏层特征向量和第二隐藏层特征向量,计算第一文本处理模型的隐藏层和第二文本处理模型的隐藏层之间的第二均方差损失;
[0015]计算第一注意力向量和第二注意力向量之间的第三均方差损失;
[0016]根据预设的温度参数计算第一预测校对向量和第二预测校对向量的交叉熵损失;
[0017]根据第一均方差损失、第二均方差损失、第三均方差损失和交叉熵损失更新第二文本处理模型。
[0018]在一种可能的实现方式中,在第一文本处理模型的层数为M,第二文本处理模型的层数为N,且M不等于N的情况下,第一特征向量包括第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量,第二特征向量包括第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对负样本进行校对的第一预测校对向量。
[0019]在一种可能的实现方式中,根据第一特征向量和第二特征向量,对第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型,包括:
[0020]根据第一文本处理模型的维度和第二文本处理模型的维度,确定投影矩阵;
[0021]根据投影矩阵、第一输入层特征向量和第二输入层特征向量,计算第一文本处理模型的输入层和第二文本处理模型的输入层之间的第一均方差损失;
[0022]根据预设的温度参数计算第一预测校对向量和第二预测校对向量的交叉熵损失;
[0023]对M层的中每一层的第一注意力向量和N层中每一层的第二注意力向量进行两两相比较,得到第一文本处理模型和第二文本处理模型之间的注意力损失矩阵;
[0024]对M层的中每一层的第一隐藏层特征向量和N层中每一层的第二隐藏层特征向量进行两两相比较,得到第一文本处理模型和第二文本处理模型之间的隐藏层损失矩阵;
[0025]根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和注意力损失矩阵,计算第一陆地移动距离EMD矩阵;
[0026]根据第一文本处理模型中每一层的权重、第二文本处理模型中每一层的权重和隐藏层损失矩阵,计算第二EMD矩阵;
[0027]根据第一EMD矩阵和注意力损失矩阵,计算第一文本处理模型中M层的第一注意力向量和第二文本处理模型中N层的第二注意力向量之间的第四均方差损失;
[0028]根据第二EMD矩阵和隐藏层损失矩阵,计算第一文本处理模型中M层的第一隐藏层特征向量和第二文本处理模型中N层的第二隐藏层特征向量之间的第五均方差损失;
[0029]根据第一均方差损失、交叉熵损失、第四均方差损失和第五均方差损失,更新第一文本处理模型中每一层的权重和第二文本处理模型中每一层的权重,直至第一均方差损失、交叉熵损失、第四均方差损失和第五均方差损失收敛。
[0030]在一种可能的实现方式中,方法还包括:
[0031]将正样本和负样本输入至待训练的第二文本处理模型中,生成负样本的预测校对序列;
[0032]根据负样本的预测校对序列和第一标签信息训练文本处理模型。
[0033]在一种可能的实现方式中,训练样本还包括正样本对和正样本对的第二标签信
息,第二标签信息表示将正样本转换为正样本的转换序列,正样本对中的两个正样本相同,方法还包括:
[0034]将正样本对输入至训练后的文本处理模型中,生成正样本的预测校对序列;
[0035]根据正样本的预测校对序列和第二标签信息,训练文本处理模型。
[0036]在一种可能的实现方式中,将正样本和负样本输入至待训练的第二文本处理模型中,生成负样本的预测校对序列,包括:
[0037]在正样本中的字符数量大于预设数量的情况下,按照从前到后的顺序,将正样本中预设数量的字符、负样本中与正样本中预设数量的字符相对应的字符输入至待训练的第二文本处理模型中,得到负样本中预设数量的字符的预测校对序列;
[0038]将正样本中剩余的字符和负样本中剩余的字符作为下一次模型训练过程的训练样本。
[0039]第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型训练方法,其特征在于,所述方法包括:从互联网爬取对话文本,得到正样本;所述对话文本中的语句为语法正确的语句,所述正样本为所述对话文本中的语句;对所述对话文本中的语句进行变换操作,得到负样本和所述负样本的第一标签信息,所述负样本中的语句为语法错误的语句,所述第一标签信息表示将所述正样本变换为所述负样本的变换序列;将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中,生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量;所述第二文本处理模型的维度小于所述第一文本处理模型,所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的;根据所述第一特征向量、所述第二特征向量,对所述第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型。2.根据权利要求1所述的方法,其特征在于,在所述第一文本处理模型的层数与所述第二文本处理模型的层数相同的情况下,所述第一特征向量包括所述第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对所述负样本进行校对的第一预测校对向量,所述第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对所述负样本进行校对的第二预测校对向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,对所述第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型,包括:根据所述第一文本处理模型的维度和所述第二文本处理模型的维度,确定投影矩阵;根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量,计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失;根据所述投影矩阵、所述第一隐藏层特征向量和所述第二隐藏层特征向量,计算所述第一文本处理模型的隐藏层和所述第二文本处理模型的隐藏层之间的第二均方差损失;计算所述第一注意力向量和所述第二注意力向量之间的第三均方差损失;根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失;根据所述第一均方差损失、所述第二均方差损失、所述第三均方差损失和所述交叉熵损失更新所述第二文本处理模型。4.根据权利要求1所述的方法,其特征在于,在所述第一文本处理模型的层数为M,所述第二文本处理模型的层数为N,且M不等于N的情况下,所述第一特征向量包括所述第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量,所述第二特征向量包括所述第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,对所述第二文本处理模型进行知识蒸馏,得到训练好的第二文本处理模型,包括:根据所述第一文本处理模型的维度和所述第二文本处理模型的维度,确定投影矩阵;
根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量,计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失;根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失;对所述M层的中每一层的第一注意力向量和所述N层中每一层的第二注意力向量进行两两相比较,得到所述第一文本处理模型和所述第二文本处理模型之间的注意力损失矩阵;对所述M层的中每一层的第一隐藏层特征向量和所述N层中每一层的第二隐藏层特征向量进行两两相比较,得到...

【专利技术属性】
技术研发人员:周军张震李成章李鹏刘建石瑾刘睿霖颜永红
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1