【技术实现步骤摘要】
本专利技术涉及文本处理与跨模态检索,尤其涉及一种提高跨模态图像检索模型泛化能力的方法、装置及介质。
技术介绍
1、随着社会的发展,多模态应用在各个领域中的应用越来越广泛,例如商品搜索、图像标注和基于文本描述的行人重识别等。这些多模态技术正快速发展,为社会发展带来巨大的推动力。然而,尽管取得了显著成就,这些应用在实际操作中仍面临数据分布差异的挑战,导致它们的泛化能力有待提高。虽然收集工作场景的数据继续微调应用模型是理想的解决方法,但是这需要额外的成本,因此训练一个能够直接应用于各个目标领域的模型具有重要意义。
2、为了提高模型的泛化能力,目前有许多方法可供选择,例如数据增强、改进模型结构和训练策略等。其中,使用大规模数据集训练模型展示出了巨大的潜力。大规模数据集能够提供更多样化、更全面的训练样本,使模型能够更好地理解不同领域的数据分布和特征。如何低成本地收集高质量的大规模数据集是其中的难点。最新的解决方案是依靠多模态大模型的技术。多模态大语言模型在图像标注方面展现出了卓越的能力。这些模型结合了自然语言处理和计算机视觉的能力,能
...【技术保护点】
1.一种提高跨模态图像检索模型泛化能力的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像-文本数据集,包括:
3.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述对描述风格单一的大规模图像-文本数据集进行分析,提取获得风格单一的句式模板,包括:
4.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述根据风格单一的句式模板生成风格多样的句式模板集合
...
【技术特征摘要】
1.一种提高跨模态图像检索模型泛化能力的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述获取图像数据集,对图像数据进行标注,获得描述风格单一的大规模图像-文本数据集,包括:
3.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述对描述风格单一的大规模图像-文本数据集进行分析,提取获得风格单一的句式模板,包括:
4.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述根据风格单一的句式模板生成风格多样的句式模板集合,包括:
5.根据权利要求2所述的一种提高跨模态图像检索模型泛化能力的方法,其特征在于,所述结合风格多样的句式模板集合,使用基于模板的多样性增强策略,再次对图像数据进行标注,获得描述风格多样的大规模图像-文本数据集,包括:
6.根据权利要求1所述的一种提高跨模态图像检索模型泛化能力的方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。