【技术实现步骤摘要】
本专利技术属于计算机,尤其涉及基于文本引导图像块筛选的多模态表征学习方法。
技术介绍
1、图像-文本多模态表征学习是计算机视觉和自然语言处理领域的研究热点之一,它旨在学习一个多模态表示来提高各种视觉和语言任务的性能。近年来,预训练-微调(pretrain-finetune)的范式变得流行起来。这种方法首先在大规模通用数据集上对庞大的模型进行预训练,然后在具体的下游任务上进行微调,从而增强模型的泛化能力。
2、受此启发,许多研究已经尝试在图像-文本多模态数据集上对模型进行预训练,通过联合学习图像和文本数据,从大规模未标记数据中提取丰富的语义信息,为视觉和语言领域的任务提供强大的表征能力。然而,以往的图像-文本预训练表征学习主要使用预训练好的特征提取模型如vision transformer(vit)和bert来提取图像和文本的单模态信息,然后将提取到的图像、文本全局语义表示通过图文对比学习进行粗粒度的模态对齐,而图像区域和单词之间更细粒度的语义交互通过注意力机制实现。
3、vit作为图像编码器,能够将图像分成图像块
...【技术保护点】
1.一种基于文本引导图像块筛选的多模态表征学习方法,其特征在于,包括以下步骤,且以下步骤顺序进行:
2.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S2中,包括以下步骤:
3.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤S4中s=γ*u,γ是视觉令牌的选择比例,默认为30%;将输入到三个堆叠的transformer块中,在每个transformer块中,首先经过自注意力层,获取更多有效的上下文特征,然后再与输出序列{vcls,v1,…,vu,vH}通过公式(4)进行
...【技术特征摘要】
1.一种基于文本引导图像块筛选的多模态表征学习方法,其特征在于,包括以下步骤,且以下步骤顺序进行:
2.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤s2中,包括以下步骤:
3.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法,其特征在于,所述步骤s4中s=γ*u,γ是视觉令牌的选择比例,默认为30%;将输入到三个堆叠的transformer块中,在每个tr...
【专利技术属性】
技术研发人员:才华,易亚希,付强,马智勇,王伟刚,刘广文,
申请(专利权)人:长春理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。