模型训练方法、装置、电子设备、存储介质及程序产品制造方法及图纸

技术编号:45348536 阅读:19 留言:0更新日期:2025-05-27 19:04
本申请提供了一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,方法包括:获取第一文本样本,并基于第一文本样本对第一语言模型以及对应原始类型的第一原型向量进行预训练处理,得到第二语言模型以及对应原始类型的第二原型向量;获取对应新增类型的第三原型向量以及第二文本样本;基于所述第二文本样本,对第二语言模型、第二原型向量以及第三原型向量进行基于知识保留机制的迁移训练处理,得到第三语言模型、对应原始类型的第四原型向量以及对应新增类型的第五原型向量。通过本申请,能够在文本分类任务中实现知识保留。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


技术介绍

1、在模型持续学习新数据的同时抵抗旧数据的灾难性遗忘,是增量学习问题的研究重点。相关技术中提出以维护虚拟内存,通过知识蒸馏的方式保留关于图像分类的旧知识,相关技术中还提出三阶段的学习框架来解决广义少样本图像分类任务和增量学习少样本分类任务:第一个阶段在可见类的数据上训练模型,第二个阶段新增一个分类头,然后用新类别的数据在该基础模型上继续做训练,第三阶段同时使用旧数据和新数据一起训练,同时辅以参数约束来帮助模型不会忘记第一阶段学习的知识。

2、相关技术中使用的知识保留技术应用于图像分类领域,尚未拓展到自然语言处理的文本分类领域当中。


技术实现思路

1、本申请实施例提供一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在文本分类任务中实现知识保留。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种模型训练方法,包括:

本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一文本样本,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本样本对第一语言模型以及对应原始类型的第一原型向量进行预训练处理,得到第二语言模型以及对应所述原始类型的第二原型向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一文本样本包括分类标记;所述通过所述第一语言模型对所述第一文本样本进行分类处理,得到第一预测分类结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一文本样本的第一标记分类...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一文本样本,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一文本样本对第一语言模型以及对应原始类型的第一原型向量进行预训练处理,得到第二语言模型以及对应所述原始类型的第二原型向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一文本样本包括分类标记;所述通过所述第一语言模型对所述第一文本样本进行分类处理,得到第一预测分类结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第一文本样本的第一标记分类标签与所述第一预测分类结果,计算第一损失函数,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本样本,对所述第二语言模型、所述第二原型向量以及所述第三原型向量进行基于知识保留机制的迁移训练处理,得到第三语言模型、对应所述原始类型的第四原型向量以及对应所述新增类型的第五原型向量,包括:

7.根据权利要求6所述的方法,其特征在于,所述通过所述第二语言模型对所述第二文本样本进行分类处理,得到第二预测分类结果,包括:

8.根据权利要求7所述的...

【专利技术属性】
技术研发人员:郑海涛林志儒李荣升周楠楠苏函晶
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1