基于生成数据分布对齐的预训练模型调优方法技术

技术编号：40192096 阅读：12 留言：0更新日期：2024-01-26 23:54

本发明专利技术公开了一种基于生成数据分布对齐的预训练模型调优方法，包括：获取用于在下游任务训练预训练模型的真实图像标签文本、真实图像数据集和类别一致的生成图像数据集；利用真实图像标签文本、真实图像数据和生成图像数据对预训练模型进行训练，优化目标是真实图像特征与文本特征之间的交叉熵优化损失，生成图像特征与文本特征之间的交叉熵优化损失和真实图像特征与生成图像特征之间的Kullback‑Leibler散度损失之和最小；利用训练好的模型输出给定图像分类任务的预测结果。本发明专利技术的方法适用于小样本图像识别和新颖类别图像识别等任务，能够帮助预训练模型在更少地损失泛化能力的条件下，利用更少的数据资源迁移到下游任务中，获得更稳健的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，特别地涉及一种基于生成数据分布对齐的预训练模型调优方法。

技术介绍

1、近年来，大规模预训练模型在不同的下游任务中展现出强大的泛化能力。这些模型利用网络上搜集的大量视觉与文本数据，以对比学习的模式进行训练，最后得到能迁移到不同的下游任务并取得良好性能的模型。然而，这些模型的规模宏大使得在迁移到下游任务的过程中会消耗庞大的计算资源和时间成本，并且迁移的过程中还会产生灾难性遗忘的现象。

2、为了在减小计算资源要求的同时保留预训练模型的泛化能力，基于提示的优化工程应运而生。这种方法通过冻结预训练模型的主体并选择加入相对更少的参数作为提示进行训练，达到保留预训练模型和减小计算资源的目的。即便如此，在训练过程中仍然容易造成对训练数据的过拟合而丢失一定的泛化能力。特别地，在训练样本较少的情况下，下游任务的训练迁移过程对样本的依赖程度急剧增加，可以通过数据增强的方式来应对这种难题。

3、传统的数据增强是对原始训练数据利用不同的手段进行预处理以获得多张不完全一致的图片加以利用。虽然这种方式可以通过对训练数据进行利用率更高的压榨以获取信息，但是并没有为网络提供训练数据以外的任何信息，因此获取到的信息仍然存在一定的局限性。另外，对训练数据的压榨也会在一定程度上加剧模型的过拟合现象。

技术实现思路

1、为解决上述问题，本专利技术的目的在于提供一种基于生成数据分布对齐的预训练模型调优方法，来为预训练模型提供多样性高的优质信息，以减少对训练样本的依赖程度

2、为实现上述目的，本专利技术的技术方案为：

3、一种基于生成数据分布对齐的预训练模型调优方法，包括以下步骤：

4、s1、获取用于在下游任务训练预训练模型的真实图像标签文本、真实图像数据集以及和所述真实图像数据集类别一致的生成图像数据集；

5、s2、利用真实图像标签文本、真实图像数据和生成图像数据对预训练模型进行训练，基于预训练模型的文本编码器、图像编码器对真实图像标签文本、真实图像数据和生成图像数据进行编码获得文本特征、真实图像特征和生成图像特征，并确定优化目标为真实图像特征与文本特征之间的交叉熵优化损失，生成图像特征与文本特征之间的交叉熵优化损失和真实图像特征与生成图像特征之间的kullback-leibler散度损失之和最小；

6、s3、基于所述优化目标对预训练模型进行训练，并利用训练好的模型输出给定图像分类任务的预测结果。

7、进一步的，步骤s1中，所述的真实图像标签文本表示为{text1,text2,...,textc}，其中texti表示以英文文本为形式的第i个类别名字，c表示类别总数；所述的真实图像数据集表示为{(x1,y1),(x2,y2),...,(xn,yn)}，其中n为真实数据集中的图像总数，xi和yi分别表示第i张图像及其对应的类标签，yi∈{1,...,c}，每一类都包含多张图像；所述的生成图像数据集为其中m为生成数据集中的图像总数，和分别表示第i张图像及其对应的类标签，每一类都包含n张图像，其中

8、进一步的，步骤s2中，获得文本特征具体包括：

9、s21、为真实图像标签文本构建更符合图像描述的短语，在一个给定的词典中搜索短语中每个单词的顺序，基于该单词的顺序以整数数字的形式代替短语中的单词；

10、s22、对每个短语中的数字进行编码从而映射到更高的维度，得到大小为c*nseq*dtext的张量，其中c表示类别总数，nseq表示预定义的短语单词数量上限，dtext为每个数字编码后的维度；

11、s23、将真实图像标签文本编码后的张量输入预训练模型的文本编码器中得到编码后的文本特征其中是文本编码器对第i个类别的标签文本编码后的文本特征，大小为1*d，d为特征维度。

12、进一步的，步骤s2中，获得真实图像特征和生成图像特征具体包括：

13、s24、在训练预训练模型时采用批量处理的方式，从真实图像数据集中随机采样一个批量的真实图像样本其中批量大小nbs预先给定；根据采样的真实图像样本breal对生成图像数据进行采样得到相同批量大小的生成图像样本

14、s25、将真实图像样本breal输入预训练模型的图像编码器中得到编码后的图像特征是图像编码器对第i张真实图像编码后的图像特征，大小为1*d；将生成图像样本bfake输入与预训练模型的图像编码器结构相同但参数不同的编码器得到编码后的生成图像特征是图像编码器对第i张生成图像编码后的图像特征，大小为1*d。

15、进一步的，步骤s2中，确定优化目标具体包括：

16、s26、将真实图像特征fimage_real与文本特征ftext的转置相乘获得真实图像中每张图像与每个类别文本的相似度作为预测结果是预训练模型对第i张真实图像的预测结果，大小为1*c；

17、s27、将生成图像特征fimage_fake与文本特征ftext的转置相乘获得生成图像中每张图像与每个类别文本的相似度作为预测结果是预训练模型对第i张生成图像的预测结果，大小为1*c；

18、s28、使用生成图像预测结果和真实图像预测结果之间的kullback-leibler散度损失函数lkl，同时使用一个批量的真实图像预测结果构成交叉熵优化损失函数lce_real和一个批量的生成图像预测结果构成交叉熵优化损失函数lce_fake；

19、s29、基于所述交叉熵优化损失函数和kullback-leibler散度损失函数得到总的损失函数为

20、l＝lkl+α*lce_real+β*lce_fake

21、其中α，β为预先设置的权重参数，用来平衡两种损失函数的贡献。

22、进一步的，步骤s28中，所述kullback-leibler散度损失函数为：

23、

24、其中，其中τ是温度系数。

25、进一步的，步骤s28中，所述交叉熵优化损失函数为：

26、

27、其中，yij为图像的真实标签，zij为模型输出预测结果。

28、进一步的，步骤s3中，基于所述优化目标对预训练模型进行训练包括：

29、s31、根据得到的总的损失函数，使用adam优化器或带动量的随机梯度下降优化器，以及反向传播算法训练预训练模型；

30、s32、重复步骤s23至s31直至模型收敛。

31、进一步的，步骤s3中，利用训练好的模型输出给定图像分类任务的预测结果包括：<本文档来自技高网...

【技术保护点】

1.一种基于生成数据分布对齐的预训练模型调优方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S1中，所述的真实图像标签文本表示为{text1,text2,...,textC}，其中texti表示以英文文本为形式的第i个类别名字，C表示类别总数；所述的真实图像数据集表示为{(x1,y1),(x2,y2),...,(xN,yN)}，其中N为真实数据集中的图像总数，xi和yi分别表示第i张图像及其对应的类标签，yi∈{1,...,C}，每一类都包含多张图像；所述的生成图像数据集为其中M为生成数据集中的图像总数，和分别表示第i张图像及其对应的类标签，每一类都包含n张图像，其中

3.如权利要求2所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S2中，获得文本特征具体包括：

4.如权利要求3所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S2中，获得真实图像特征和生成图像特征具体包括：

5.如权利要求4所述的基于生成数据分布对齐的预训练模型调优方法

6.如权利要求5所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S28中，所述Kullback-Leibler散度损失函数为：

7.如权利要求5所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S28中，所述交叉熵优化损失函数为：

8.如权利要求5-7任一项所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S3中，基于所述优化目标对预训练模型进行训练包括：

9.如权利要求8所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤S3中，利用训练好的模型输出给定图像分类任务的预测结果包括：

...

【技术特征摘要】

1.一种基于生成数据分布对齐的预训练模型调优方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤s1中，所述的真实图像标签文本表示为{text1,text2,...,textc}，其中texti表示以英文文本为形式的第i个类别名字，c表示类别总数；所述的真实图像数据集表示为{(x1,y1),(x2,y2),...,(xn,yn)}，其中n为真实数据集中的图像总数，xi和yi分别表示第i张图像及其对应的类标签，yi∈{1,...,c}，每一类都包含多张图像；所述的生成图像数据集为其中m为生成数据集中的图像总数，和分别表示第i张图像及其对应的类标签，每一类都包含n张图像，其中

3.如权利要求2所述的基于生成数据分布对齐的预训练模型调优方法，其特征在于，步骤s2中，获得文本特征具体包括：

4.如权利要求3所述的基于生...

【专利技术属性】
技术研发人员：于云龙，何玮杰，刘木水，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人