提高跨模态图像检索模型泛化能力的方法、装置及介质制造方法及图纸

技术编号:42332529 阅读:14 留言:0更新日期:2024-08-14 16:09
本发明专利技术公开了一种提高跨模态图像检索模型泛化能力的方法、装置及介质,其中方法包括:获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像‑文本数据集;对描述风格单一的大规模图像‑文本数据集进行分析,提取获得风格单一的句式模板;根据风格单一的句式模板生成风格多样的句式模板集合;结合风格多样的句式模板集合,使用基于模板的多样性增强策略,再次对图像数据进行标注,获得描述风格多样的大规模图像‑文本数据集;构建并初始化多模态Backbone网络;根据大规模图像‑文本数据集,使用噪声感知掩盖策略对多模态Backbone网络进行训练。本发明专利技术提升了跨模态图像检索模型泛化性能,可广泛应用于图像处理与识别技术领域。

【技术实现步骤摘要】

本专利技术涉及文本处理与跨模态检索,尤其涉及一种提高跨模态图像检索模型泛化能力的方法、装置及介质


技术介绍

1、随着社会的发展,多模态应用在各个领域中的应用越来越广泛,例如商品搜索、图像标注和基于文本描述的行人重识别等。这些多模态技术正快速发展,为社会发展带来巨大的推动力。然而,尽管取得了显著成就,这些应用在实际操作中仍面临数据分布差异的挑战,导致它们的泛化能力有待提高。虽然收集工作场景的数据继续微调应用模型是理想的解决方法,但是这需要额外的成本,因此训练一个能够直接应用于各个目标领域的模型具有重要意义。

2、为了提高模型的泛化能力,目前有许多方法可供选择,例如数据增强、改进模型结构和训练策略等。其中,使用大规模数据集训练模型展示出了巨大的潜力。大规模数据集能够提供更多样化、更全面的训练样本,使模型能够更好地理解不同领域的数据分布和特征。如何低成本地收集高质量的大规模数据集是其中的难点。最新的解决方案是依靠多模态大模型的技术。多模态大语言模型在图像标注方面展现出了卓越的能力。这些模型结合了自然语言处理和计算机视觉的能力,能够根据图像内容生成准本文档来自技高网...

【技术保护点】

1.一种提高跨模态图像检索模型泛化能力的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像-文本数据集,包括:

3.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述对描述风格单一的大规模图像-文本数据集进行分析,提取获得风格单一的句式模板,包括:

4.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述根据风格单一的句式模板生成风格多样的句式模板集合,包括:

...

【技术特征摘要】

1.一种提高跨模态图像检索模型泛化能力的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像-文本数据集,包括:

3.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述对描述风格单一的大规模图像-文本数据集进行分析,提取获得风格单一的句式模板,包括:

4.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述根据风格单一的句式模板生成风格多样的句式模板集合,包括:

5.根据权利要求2所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述结合风格多样的句式模板集合,使用基于模板的多样性增强策略,再次对图像数据进行标注,获得描述风格多样的大规模图像-文本数据集,包括:

6.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,...

【专利技术属性】
技术研发人员:丁长兴谭文韬江佳瑜
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1