文本处理模型的训练方法及装置制造方法及图纸

技术编号：34046446 阅读：17 留言：0更新日期：2022-07-06 14:44

本说明书提供文本处理模型的训练方法及装置，其中所述文本处理模型的训练方法包括：对初始样本集中的组合样本文本进行重构处理，获得目标样本集，其中，所述组合样本文本包括至少两种类型的子文本；基于文本处理模型中的编码单元对所述目标样本集包含的目标样本数据进行编码处理，获得编码向量；对所述编码向量进行更新，并基于所述文本处理模型中的分类单元对更新后的编码向量进行分类处理，获得对应所述目标样本数据的预测类别；根据所述预测类别和所述目标样本数据对应的目标类别，将所述文本处理模型更新为目标文本处理模型。从而提高文本处理模型的预测准确率。提高文本处理模型的预测准确率。提高文本处理模型的预测准确率。

Training method and device of text processing model

全部详细技术资料下载

【技术实现步骤摘要】
文本处理模型的训练方法及装置

[0001]本说明书涉及人工智能
，特别涉及一种文本处理模型的训练方法。本说明书同时涉及一种文本处理模型的训练装置、一种文本处理方法、一种文本处理装置、一种计算设备以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，在教学环境下，会为多个学科题目设定章节标签，实现学科题目的分类，进而将题目和章节标签一同存储到教学系统。现有技术中，教师通常需要手动为多个学科题目标注章节标签，这种方式将耗费大量的人力，因此需要更为简单便捷的方法对题目进行章节标注。

技术实现思路

[0003]有鉴于此，本说明书实施例提供了一种文本处理模型的训练方法。本说明书同时涉及一种文本处理模型的训练装置、一种文本处理方法、一种文本处理装置、一种计算设备以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0004]根据本说明书实施例的第一方面，提供了一种文本处理模型的训练方法，包括：
[0005]对初始样本集中的组合样本文本进行重构处理，获得目标样本集，其中，所述组合样本文本包括至少两种类型的子文本；
[0006]基于文本处理模型中的编码单元对所述目标样本集包含的目标样本数据进行编码处理，获得编码向量；
[0007]对所述编码向量进行更新，并基于所述文本处理模型中的分类单元对更新后的编码向量进行分类处理，获得对应所述目标样本数据的预测类别；
[0008]根据所述预测类别和所述目标样本数据对应的目标类别，将所述文本处理模型更新为目...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型的训练方法，其特征在于，包括：对初始样本集中的组合样本文本进行重构处理，获得目标样本集，其中，所述组合样本文本包括至少两种类型的子文本；基于文本处理模型中的编码单元对所述目标样本集包含的目标样本数据进行编码处理，获得编码向量；对所述编码向量进行更新，并基于所述文本处理模型中的分类单元对更新后的编码向量进行分类处理，获得对应所述目标样本数据的预测类别；根据所述预测类别和所述目标样本数据对应的目标类别，将所述文本处理模型更新为目标文本处理模型。2.根据权利要求1所述的方法，其特征在于，所述对初始样本集中的组合样本文本进行重构处理，获得目标样本集，包括：获取初始样本集；选择初始样本集中包含至少两种类型的子文本的样本文本作为组合样本文本，以及选择包含一种类型的子文本的样本文本作为单样本文本；对所述组合样本文本进行重构处理，获得中间样本文本；基于所述中间样本文本和单样本文本构建所述目标样本集。3.根据权利要求2所述的方法，其特征在于，所述对所述组合样本文本进行重构处理，获得中间样本文本，包括：在所述组合样本文本中提取非题干子文本和题干子文本；确定所述非题干子文本对应的重构数值；在所述重构数值大于预设重构阈值的情况下，将所述题干子文本作为中间样本文本。4.根据权利要求3所述的方法，其特征在于，还包括：确定所述非题干子文本中答案子文本对应的答案重构数值；在所述答案重构数值小于所述预设重构阈值的情况下，确定所述非题干子文本中解析子文本对应的解析重构数值；在所述解析重构数值大于所述预设重构阈值的情况下，根据所述答案子文本所述题干子文本构建中间样本文本。5.根据权利要求1所述的方法，其特征在于，所述对所述编码向量进行更新，包括：按照预设选择策略在所述编码向量中选择待处理向量元素；对所述待处理向量元素进行转换处理，获得目标向量元素；基于所述目标向量元素和所述编码向量中未被选择的向量元素构建目标编码向量。6.根据权利要求1所述的方法，其特征在于，所述根据所述预测类别和所述目标样本数据对应的目标类别对，将所述文本处理模型更新为目标文本处理模型，包括：根据所述预测类别和所述目标样本数据对应的目标类别计算所述文本处理模型的第一损失值；根据所述第一损失值对所述...

【专利技术属性】
技术研发人员：吴通通，赵薇，柳景明，李旭，
申请(专利权)人：北京飞象星球科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人