文本处理模型训练方法、语音文本处理方法及装置制造方法及图纸

技术编号：30140600 阅读：25 留言：0更新日期：2021-09-23 15:02

本申请提供了一种文本处理模型训练方法、语音文本处理方法及装置，涉及自然语言处理技术领域。该方法包括：从互联网爬取对话文本，得到正样本；对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息；将正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成第一文本处理模型的目标层的第一特征向量和第二文本处理模型的目标层的第二特征向量；根据第一特征向量、第二特征向量，对第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。根据本申请实施例，能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。占用大的问题。占用大的问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理模型训练方法、语音文本处理方法及装置

[0001]本申请涉及自然语言处理
，尤其涉及一种文本处理模型训练方法、语音文本处理方法及装置。

技术介绍

[0002]随着自然语言处理技术的发展和人们对高效率的需求，语音识别技术已经被广泛地应用于生活的各个领域，如将会议内容录音后转换文本作为会议纪要；对老师讲课的录音内容转换成文本作为课堂笔记等等。
[0003]目前，为了能够准确地识别将语音转换成文本，且转换的文本能够易于用户理解，需要对识别的语音转换成文本，然后再对文本进行校对，从而得到易于用户理解的文本。但是，相关技术中对文本校对的模型在训练时，由于缺乏足量的训练样本，模型难以训练，且即使成功，得到的文本校对模型也需要进行多次迭代来完成文本校对，因此，耗时较长，效率低，且计算资源占用大。

技术实现思路

[0004]本申请实施例提供了一种文本处理模型训练方法、语音文本处理方法及装置，能够解决相关技术中对语音文本进行校对效率低、耗时长且计算资源占用大的问题。
[0005]第一方面，本申请实施例提供了文本处理模型训练方法，该方法包括：
[0006]从互联网爬取对话文本，得到正样本；对话文本中的语句为语法正确的语句，正样本为对话文本中的语句；
[0007]对对话文本中的语句进行变换操作，得到负样本和负样本的第一标签信息，负样本中的语句为语法错误的语句，第一标签信息表示将正样本变换为负样本的变换序列；
[0008]将正样本和负样本对应输入至预先训练的第一文本处理模...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型训练方法，其特征在于，所述方法包括：从互联网爬取对话文本，得到正样本；所述对话文本中的语句为语法正确的语句，所述正样本为所述对话文本中的语句；对所述对话文本中的语句进行变换操作，得到负样本和所述负样本的第一标签信息，所述负样本中的语句为语法错误的语句，所述第一标签信息表示将所述正样本变换为所述负样本的变换序列；将所述正样本和负样本对应输入至预先训练的第一文本处理模型中和待训练的第二文本处理模型中，生成所述第一文本处理模型的目标层的第一特征向量和所述第二文本处理模型的目标层的第二特征向量；所述第二文本处理模型的维度小于所述第一文本处理模型，所述第一文本处理模型是根据所述正样本、所述负样本和所述负样本的变换序列训练得到的；根据所述第一特征向量、所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型。2.根据权利要求1所述的方法，其特征在于，在所述第一文本处理模型的层数与所述第二文本处理模型的层数相同的情况下，所述第一特征向量包括所述第一输入层特征向量、第一隐藏层特征向量、第一注意力向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括第二输入层特征向量、第二隐藏层特征向量、第二注意力向量和对所述负样本进行校对的第二预测校对向量。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：根据所述第一文本处理模型的维度和所述第二文本处理模型的维度，确定投影矩阵；根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量，计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失；根据所述投影矩阵、所述第一隐藏层特征向量和所述第二隐藏层特征向量，计算所述第一文本处理模型的隐藏层和所述第二文本处理模型的隐藏层之间的第二均方差损失；计算所述第一注意力向量和所述第二注意力向量之间的第三均方差损失；根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失；根据所述第一均方差损失、所述第二均方差损失、所述第三均方差损失和所述交叉熵损失更新所述第二文本处理模型。4.根据权利要求1所述的方法，其特征在于，在所述第一文本处理模型的层数为M，所述第二文本处理模型的层数为N，且M不等于N的情况下，所述第一特征向量包括所述第一文本处理模型的M层中每一层的第一注意力向量、每一层隐藏层的第一隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量，所述第二特征向量包括所述第二文本处理模型的N层中每一层的第二注意力向量、每一层隐藏层的第二隐藏层特征向量、第一输入层特征向量和对所述负样本进行校对的第一预测校对向量。5.根据权利要求4所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，对所述第二文本处理模型进行知识蒸馏，得到训练好的第二文本处理模型，包括：根据所述第一文本处理模型的维度和所述第二文本处理模型的维度，确定投影矩阵；
根据所述投影矩阵、所述第一输入层特征向量和所述第二输入层特征向量，计算所述第一文本处理模型的输入层和所述第二文本处理模型的输入层之间的第一均方差损失；根据预设的温度参数计算所述第一预测校对向量和所述第二预测校对向量的交叉熵损失；对所述M层的中每一层的第一注意力向量和所述N层中每一层的第二注意力向量进行两两相比较，得到所述第一文本处理模型和所述第二文本处理模型之间的注意力损失矩阵；对所述M层的中每一层的第一隐藏层特征向量和所述N层中每一层的第二隐藏层特征向量进行两两相比较，得到...

【专利技术属性】
技术研发人员：周军，张震，李成章，李鹏，刘建，石瑾，刘睿霖，颜永红，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人