【技术实现步骤摘要】
预训练模型的训练、应用方法、装置、电子设备及介质
[0001]本公开实施例涉及图像处理技术,尤其涉及预训练模型的训练、应用方法、装置、电子设备及介质。
技术介绍
[0002]视觉
‑
语言预训练(Vision
‑
Language Pre
‑
training,VLP)旨在通过在大规模图像
‑
文本对上对模型进行预训练来提高下游视觉和语言任务的性能。大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色,引导语言
‑
图像预训练(Bootstrapping Language
‑
Image Pre
‑
training,BLIP)模型是一个新的VLP框架可用于统一视觉
‑
语言理解和生成任务,支持比现有方法更广泛的下游任务。
[0003]然而,BLIP模型在统一视觉
‑
语言理解和生成任务所考虑的信息有限,使得BLIP模型的效果受限。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种预训练模型的训练方法,其特征在于,包括:获取训练用的样本集,所述样本集包括图像、所述图像所对应的图像描述信息和所述图像内的文本信息;将所述样本集内的样本输入至预训练模型,得到所述图像对应的图像特征、所述文本信息对应的融合特征和所述图像描述信息对应的描述特征,所述预训练模型为具有视觉语言理解和生成能力的模型,所述融合特征为融合了所述图像的图像特征和所述图像对应的文本信息的特征;基于所述图像特征、所述融合特征和所述描述特征,训练所述预训练模型。2.根据权利要求1所述的方法,其特征在于,将所述样本集内的样本输入至预训练模型,得到所述图像对应的图像特征、所述文本信息对应的融合特征和所述图像描述信息对应的描述特征,包括:将所述样本集内样本所包括的图像输入至所述预训练模型中的图像编码模块,得到所述图像的图像特征;将所述图像特征和所述图像内的文本信息输入至所述预训练模型中的文本编码模块,得到所述文本信息对应的融合特征;将所述图像描述信息输入至描述编码模块,得到所述图像描述信息对应的描述特征。3.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征、所述融合特征和所述描述特征,训练所述预训练模型,包括:基于所述融合特征和所述描述特征,确定所述预训练模型的图像文本对比损失函数;基于所述融合特征、所述图像特征和所述描述特征,确定所述预训练模型的图像文本匹配损失函数和语言建模损失函数;基于所述图像文本对比损失函数、图像文本匹配损失函数和语言建模损失函数训练所述预训练模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述融合特征、所述图像特征和所述描述特征,确定所述预训练模型的图像文本匹配损失函数和语言建模损失函数,包括:融合所述融合特征和所述图像特征;通过所述预训练模型的描述编码模块,基于所述描述特征和输入至所述描述编码模块的融合后特征,得到图像文本匹配损失函数和语言建模损失函数。5.根据权利要求1
‑
4任一所述的方法...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。