一种模型训练方法、装置及通用模型框架制造方法及图纸

技术编号:34933291 阅读:12 留言:0更新日期:2022-09-15 07:29
本申请公开了一种模型训练方法,包括:获取训练数据,利用训练数据和通用模型框架,训练目标模型。通用模型框架包括特征处理模块和任务抽象模块,特征处理模块用于对多模态数据进行特征处理,任务抽象模块用于计算多种预测任务对应的损失函数。多模态数据包括训练数据所属的类型的数据,多种预测任务包括目标模型的预测任务。在训练目标模型时,可以利用特征处理模块对训练数据进行特征处理,并利用任务抽象模型计算损失函数。由此可见,利用本方案,能够有效提升训练目标模块的效率。作为一个示例,在需要训练模型的场景较多的场景下,各个场景下的模型训练均可以采用本申请实施例提供的方案,从而有效提升训练多个场景对应的模型的效率。型的效率。型的效率。

【技术实现步骤摘要】
一种模型训练方法、装置及通用模型框架


[0001]本申请涉及计算机
,特别是涉及一种模型训练方法、装置及通用模型框架。

技术介绍

[0002]在一些场景中,可以训练模型来进行结果预测。例如,在内容推荐的场景中,可以训练模型来确定用户与内容交互的可能性,从而为用户合理推荐内容。
[0003]目前训练模型的方式是,针对各个业务场景(例如推荐场景)分别训练对应的模型,相应的,研发人员需要针对各个模型编写对应的软件代码,从而导致模型训练的效率较低。
[0004]因此,急需一种方案,能够解决上述问题。

技术实现思路

[0005]为了解决或者至少部分解决上述技术问题,本申请实施例提供了一种模型训练方法、装置及通用模型框架。
[0006]第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
[0007]获取训练数据;
[0008]利用所述训练数据和通用模型框架,训练目标模型;其中:
[0009]所述通用模型框架包括特征处理模块和任务抽象模块,所述特征处理模块用于对多模态数据进行特征处理,所述任务抽象模块,用于计算多种预测任务对应的损失函数;所述多模态数据,包括所述训练数据所属的类型的数据,所述多种预测任务,包括所述目标模型的预测任务;在训练所述目标模型时,利用所述特征处理模块对所述训练数据进行特征处理,并利用所述任务抽象模块计算损失函数,所述多模态数据包括:图像、视频、音频以及文本中的至少一种。
[0010]可选的,所述特征处理模块,包括:/>[0011]特征提取模块和特征融合模块;
[0012]所述特征提取模块,用于分别提取所述多模态数据中各个类型的数据的特征;
[0013]所述特征融合模块,用于对所述各个类型的数据的特征中的至少两种类型的数据的特征进行融合,得到融合特征。
[0014]可选的,所述特征融合模块,包括:
[0015]多种特征融合方式中各个融合方式分别对应的特征融合子模块。
[0016]可选的,所述多种融合方式,包括以下至少一项:
[0017]平均池化、串联融合以及基于注意力机制的特征融合。
[0018]可选的,利用所述特征处理模块对所述训练数据进行特征处理,包括:
[0019]利用所述特征提取模块和所述特征融合模块中的目标特征融合子模块对所述训练数据进行特征处理。
[0020]可选的,所述多种预测任务,包括:
[0021]分类任务、匹配任务、知识蒸馏任务、以及行为序列建模任务。
[0022]可选的,所述任务抽象模块,包括与各个预测任务分别对应的任务抽象子模块,所述利用所述任务抽象模块计算损失函数,包括:
[0023]利用与所述目标模型的预测任务对应的任务抽象子模块,计算所述目标模型的损失函数。
[0024]第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:
[0025]获取单元,用于获取训练数据;
[0026]训练单元,用于利用所述训练数据和通用模型框架,训练目标模型;其中:
[0027]所述通用模型框架包括特征处理模块和任务抽象模块,所述特征处理模块用于对多模态数据进行特征处理,所述任务抽象模块,用于计算多种预测任务对应的损失函数;所述多模态数据,包括所述训练数据所属的类型的数据,所述多种预测任务,包括所述目标模型的预测任务;在训练所述目标模型时,利用所述特征处理模块对所述训练数据进行特征处理,并利用所述任务抽象模块计算损失函数,所述多模态数据包括:图像、视频、音频以及文本中的至少一种。
[0028]可选的,所述特征处理模块,包括:
[0029]特征提取模块和特征融合模块;
[0030]所述特征提取模块,用于分别提取所述多模态数据中各个类型的数据的特征;
[0031]所述特征融合模块,用于对所述各个类型的数据的特征中的至少两种类型的数据的特征进行融合,得到融合特征。
[0032]可选的,所述特征融合模块,包括:
[0033]多种特征融合方式中各个融合方式分别对应的特征融合子模块。
[0034]可选的,所述多种融合方式,包括以下至少一项:
[0035]平均池化、串联融合以及基于注意力机制的特征融合。
[0036]可选的,利用所述特征处理模块对所述训练数据进行特征处理,包括:
[0037]利用所述特征提取模块和所述特征融合模块中的目标特征融合子模块对所述训练数据进行特征处理。
[0038]可选的,所述多种预测任务,包括:
[0039]分类任务、匹配任务、知识蒸馏任务、以及行为序列建模任务。
[0040]可选的,所述任务抽象模块,包括与各个预测任务分别对应的任务抽象子模块,所述利用所述任务抽象模块计算损失函数,包括:
[0041]利用与所述目标模型的预测任务对应的任务抽象子模块,计算所述目标模型的损失函数。
[0042]第三方面,本申请实施例提供了一种通用模型框架,所述通用模型框架包括特征处理模块和任务抽象模块,所述特征处理模块用于对多模态数据进行特征处理,所述任务抽象模块,用于计算多种预测任务对应的损失函数,所述多模态数据包括:图像、视频、音频以及文本中的至少一种。
[0043]可选的,所述特征处理模块,包括:
[0044]特征提取模块和特征融合模块;
[0045]所述特征提取模块,用于分别提取所述多模态数据中各个类型的数据的特征;
[0046]所述特征融合模块,用于对所述各个类型的数据的特征中的至少两种类型的数据的特征进行融合,得到融合特征。
[0047]可选的,所述特征融合模块,包括:
[0048]多种特征融合方式中各个融合方式分别对应的特征融合子模块。
[0049]可选的,所述多种融合方式,包括以下至少一项:
[0050]平均池化、串联融合以及基于注意力机制的特征融合。
[0051]可选的,所述多种预测任务,包括:
[0052]分类任务、匹配任务、知识蒸馏任务、以及行为序列建模任务。
[0053]第四方面,本申请实施例提供了一种设备,所述设备包括处理器和存储器;
[0054]所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如以上第一方面中任一项所述的方法。
[0055]第五方面,本申请实施例提供了一种计算机可读存储介质,包括指令,所述指令指示设备执行如以上第一方面中任一项所述的方法。
[0056]第六方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行以上第一方面任一项所述的方法。
[0057]与现有技术相比,本申请实施例具有以下优点:
[0058]本申请实施例提供了一种模型训练方法,该方法可以获取训练数据,获取训练数据之后,可以利用所述训练数据和通用模型框架,训练目标模型。所述通用模型框架,包括特征处理模块和任务抽本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取训练数据;利用所述训练数据和通用模型框架,训练目标模型;其中:所述通用模型框架包括特征处理模块和任务抽象模块,所述特征处理模块用于对多模态数据进行特征处理,所述任务抽象模块,用于计算多种预测任务对应的损失函数;所述多模态数据,包括所述训练数据所属的类型的数据,所述多种预测任务,包括所述目标模型的预测任务;在训练所述目标模型时,利用所述特征处理模块对所述训练数据进行特征处理,并利用所述任务抽象模块计算损失函数,所述多模态数据包括:图像、视频、音频以及文本中的至少一种。2.根据权利要求1所述的方法,其特征在于,所述特征处理模块,包括:特征提取模块和特征融合模块;所述特征提取模块,用于分别提取所述多模态数据中各个类型的数据的特征;所述特征融合模块,用于对所述各个类型的数据的特征中的至少两种类型的数据的特征进行融合,得到融合特征。3.根据权利要求2所述的方法,其特征在于,所述特征融合模块,包括:多种特征融合方式中各个融合方式分别对应的特征融合子模块。4.根据权利要求3所述的方法,其特征在于,所述多种融合方式,包括以下至少一项:平均池化、串联融合以及基于注意力机制的特征融合。5.根据权利要求3所述的方法,其特征在于,利用所述特征处理模块对所述训练数据进行特征处理,包括:利用所述特征提取模块和所述特征融合模块中的目标特征融合子模块对所述训练数据进行特征处理。6.根据权利要求1所述的方法,其特征在于,所述多种预测任务,包括:分类任务、匹配任务、知识蒸馏任务、以及...

【专利技术属性】
技术研发人员:迟禄袁泽寰卢靓妮
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1