一种模型训练方法、装置及电子设备制造方法及图纸

技术编号：40504419 阅读：12 留言：0更新日期：2024-03-01 13:18

本说明书一个或多个实施例公开了一种模型训练方法，包括：确定至少一个目标任务，并构建所述目标任务的训练样本集；基于所述目标任务，确定分支模型，并基于所述分支模型与参数冻结的预训练图像模型，确定目标模型；基于所述训练样本集训练所述目标模型；训练过程中，将所述训练样本集中的样本图像输入所述预训练图像模型，得到第一特征表示，并在所述分支模型学习到的所述样本图像的第二特征表示中融合所述第一特征表示，以得到所述分支模型基于所述第一特征表示和所述第二特征表示的融合特征的预测结果；基于所述预测结果和所述样本图像的原始标签确定损失函数，来微调所述目标模型的参数相应地，本说明书还公开了模型训练装置及电子设备。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及一种模型训练方法、装置及电子设备。

技术介绍

1、当前的大模型训练技术是基于adaptor(以目标为中心的语言模型适应框架)的实现方式，该方式只能支持固定图片的输入，同时引入的参数量大、训练和推理成本高，很难直接应用到具体的业务场景中。

技术实现思路

1、本说明书一个或多个实施例描述了一种模型训练方法、装置及电子设备，该方法在训练过程中仅需引入很少的参数量，且能够支持不同类型的图像输入以及不同类型的任务。

2、第一方面，提供了一种模型训练方法，该方法包括：

3、确定至少一个目标任务，并构建所述目标任务的训练样本集；

4、基于所述目标任务，确定分支模型，并基于所述分支模型与参数冻结的预训练图像模型，确定目标模型；

5、基于所述训练样本集训练所述目标模型；训练过程中，将所述训练样本集中的样本图像输入所述预训练图像模型，得到第一特征表示，并在所述分支模型学习到的所述样本图像的第二特征表示中融合所述第一特征表示，以得到所述分支模型基于所述第一特征表示和所述第二特征表示的融合特征的预测结果；基于所述预测结果和所述样本图像的原始标签确定损失函数，来微调所述目标模型的参数。

6、作为第一方面所述方法的一种可选实施方式，所述分支模型包括编码器和下游任务网络；在所述训练过程中，所述编码器用于对所述样本图像进行特征编码，以得到所述样本图像的第二特征表示；所述下游任务网络用于基于所述第一特征表示和所述第二特征表示

7、作为第一方面所述方法的一种可选实施方式，所述第一特征表示的维度与所述第二特征表示的维度相同；所述融合特征是由所述第一特征表示和所述第二特征表示组合成的复向量。

8、作为第一方面所述方法的一种可选实施方式，所述融合特征是由所述第一特征表示和所述第二特征表示在特征维度进行连接得到的。

9、作为第一方面所述方法的一种可选实施方式，所述预训练图像模型包括输入层和transformer编码器；

10、所述输入层用于将输入的所述样本图像拆分为互不重叠的图像块，以形成图像块序列；所述输入层还用于将所述图像块序列映射成图像特征向量，并为所述图像特征向量生成位置向量；所述图像特征向量和所述位置向量构成所述transformer编码器的输入特征向量；

11、所述transformer编码器用于将所述输入特征向量编码为所述样本图像的第一特征表示。

12、作为第一方面所述方法的一种可选实施方式，基于所述目标任务，确定分支模型，并基于所述分支模型与参数冻结的预训练图像模型，确定目标模型，具体包括：

13、将所述分支模型与所述预训练图像模型进行可插拔式连接，以构成所述目标模型。

14、第二方面，提供了一种模型训练装置，包括：

15、第一数据获取模块，用于基于用户的配置操作，获取至少一个目标任务及所述目标任务的训练样本集；

16、第一模型存储模块，用于存储参数冻结的预训练图像模型；

17、第二模型存储模块，用于存储预先搭建的分支模型；

18、目标模型生成模块，用于基于所述至少一个目标任务，从所述第二模型存储模块中选取所述分支模型，并基于所述分支模型和所述预训练图像模型生成目标模型；

19、处理模块，用于基于所述训练样本集训练所述目标模型；训练过程中，将所述训练样本集中的样本图像输入所述预训练图像模型，得到第一特征表示，并在所述分支模型学习到的所述样本图像的第二特征表示中融合所述第一特征表示，以得到所述分支模型基于所述第一特征表示和所述第二特征表示的融合特征的预测结果；基于所述预测结果和所述样本图像的原始标签确定损失函数，来微调所述目标模型的参数。

20、作为第二方面所述装置的一种可选实施方式，所述分支模型包括编码器和下游任务网络；在所述训练过程中，所述编码器用于对所述样本图像进行特征编码，以得到所述样本图像的第二特征表示；所述下游任务网络用于基于所述第一特征表示和所述第二特征表示的融合特征进行预测，得到所述预测结果。

21、作为第二方面所述装置的一种可选实施方式，所述分支模型以插件的形式存储在所述第二模型存储模块中。

22、作为第二方面所述装置的一种可选实施方式，所述目标模型生成模块还用于将所述分支模型与所述预训练图像模型进行可插拔式连接，以构成所述目标模型。

23、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的模型训练方法。

24、第四方面，提供了一种电子设备，包括：

25、一个或多个处理器；以及

26、与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行所述的模型训练方法的步骤。

27、本说明书的一个或多个实施例所提供的一种模型训练方法，该方法采用可插拔式的轻量化分支模型与预训练图像模型组合成目标模型，在目标模型的训练过程，冻结预训练图像模型的参数，只更新分支模型的参数，增加的参数量很少。该模型训练方法中，既利用了大模型的泛化性，又能针对具体的下游任务进行微调和适配，能够灵活适应不同业务场景。

28、本说明书的一个或多个实施例所提供的模型训练装置以及点子设备同样具有上述有益效果。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，包括：

2.如权利要求1所述的方法，所述分支模型包括编码器和下游任务网络；在所述训练过程中，所述编码器用于对所述样本图像进行特征编码，以得到所述样本图像的第二特征表示；所述下游任务网络用于基于所述第一特征表示和所述第二特征表示的融合特征进行预测，得到所述预测结果。

3.如权利要求1所述的方法，所述第一特征表示的维度与所述第二特征表示的维度相同；所述融合特征是由所述第一特征表示和所述第二特征表示组合成的复向量。

4.如权利要求1所述的方法，所述融合特征是由所述第一特征表示和所述第二特征表示在特征维度进行连接得到的。

5.如权利要求1所述的方法，所述预训练图像模型包括输入层和Transformer编码器；

6.如权利要求1所述的方法，基于所述目标任务，确定分支模型，并基于所述分支模型与参数冻结的预训练图像模型，确定目标模型，具体包括：

7.一种模型训练装置，包括：

8.如权利要求7所述的装置，所述分支模型包括编码器和下游任务网络；在所述训练过程中，所述编码器用于对所述样本图像进行

9.如权利要求7所述的装置，所述分支模型以插件的形式存储在所述第二模型存储模块中。

10.如权利要求7所述的装置，所述目标模型生成模块还用于将所述分支模型与所述预训练图像模型进行可插拔式连接，以构成所述目标模型。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。

12.一种电子设备，包括：

...

【技术特征摘要】

1.一种模型训练方法，包括：

4.如权利要求1所述的方法，所述融合特征是由所述第一特征表示和所述第二特征表示在特征维度进行连接得到的。

5.如权利要求1所述的方法，所述预训练图像模型包括输入层和transformer编码器；

6.如权利要求1所述的方法，基于所述目标任务，确定分支模型，并基于所述分支模型与...

【专利技术属性】
技术研发人员：陈志军，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人