当前位置: 首页 > 专利查询>厦门大学专利>正文

一种结合视觉-语言预训练和提示学习的域泛化方法技术

技术编号:42661015 阅读:20 留言:0更新日期:2024-09-10 12:19
本发明专利技术公开了一种结合视觉‑语言预训练和提示学习的域泛化方法。所述方法基于一训练完成的多模态模型以及植入该模型的至少一个域提示生成器,所述多模态模型包括至少一个图像编码器、至少一个文本编码器;获取多域文本数据集及多域图像数据集,并利用模型从多域文本数据集提取每条文本数据对应的第一文本特征,以及,从多域图像数据集提取每张图像数据对应的第一图像特征;在图像编码器中嵌入可学习向量,并利用嵌入后的图像编码器提取多域图像数据集中每张图像数据对应的第二图像特征;将每张图像数据对应的第二图像特征输入域提示生成器,得到每个域对应的总体语言提示等。本发明专利技术能够提高模型在未见领域的准确性和效率,解决现有技术中存在的问题。

【技术实现步骤摘要】

本专利技术涉及计算机视觉与机器学习,尤其涉及一种域泛化(domaingeneralization,dg)技术。


技术介绍

1、目前的域泛化技术主要方法包括学习跨域不变的表示特征。例如,不变风险最小化(invariant risk minimization,irm)专注于学习在不同域中表现一致的预测因子,依赖于大量领域数据和高昂的计算成本,使得在资源受限的情况下难以应用。而域对抗神经网络(domain adversarial neural networks,dann)通过域分类器的使用,鼓励模型学习在不同域中无法区分的特征。但dann对于极端域差异的适应性有限,且训练过程中模型稳定性难以保证。此外,元学习在域泛化中通过模拟训练期间的域变化被有效利用,例如模型无关元学习(model-agnostic meta-learning,maml)通过优化,使模型能够快速适应新域。此方法的缺点是对初始模型的依赖性强,且对超参数极为敏感,稍有不慎便可能导致模型过拟合。数据增强方法如mixup和cutmix通过结合不同域的特征和标签生成合成训练示例,增强模型的泛化能力,但在本文档来自技高网...

【技术保护点】

1.一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,所述方法基于一训练完成的多模态模型以及植入该模型的至少一个域提示生成器,所述多模态模型包括至少一个图像编码器、至少一个文本编码器;

2.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

3.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

4.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

5.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

6...

【技术特征摘要】

1.一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,所述方法基于一训练完成的多模态模型以及植入该模型的至少一个域提示生成器,所述多模态模型包括至少一个图像编码器、至少一个文本编码器;

2.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

3.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

4.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方法,其特征在于,

5.如权利要求1所述的一种结合视觉-语言预训练和提示学习的域泛化方...

【专利技术属性】
技术研发人员:卢杨王李媛王菡子
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1