【技术实现步骤摘要】
本专利技术属于信息,涉及视觉语言模态对齐、视觉语言预训练技术,具体涉及一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法和系统。
技术介绍
1、视觉语言对齐(vison and language alignment)是视觉语言多模态学习中的基础任务。其指对齐视觉和语言特征的过程,以便它们可以一起用于各种任务,如图像检索(image text retrieval),场景图生成(scene graph generation,sgg)以及指代表达理解(referring expression comprehension)等。
2、视觉语言对齐最开始专注于解决视觉和语言场景中的各个专用任务,这些任务通常通过将视觉和语言映射到一个联合表示空间或通过交叉注意力机制进行视觉语言对齐。这种对齐是与特定的视觉与语言任务一起学习的,缺乏对其他相关任务有益的通用能力。因此,近段时间视觉语言预训练模型广泛应用于各个视觉语言任务中,其试图利用视觉语言预训练技术(vision-language pertaining,vlp)以隐式注意力的方式学习跨
...【技术保护点】
1.一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,使用Faster R-CNN作为所述视觉预训练编码器,记为Vtrans,用于检测一组对象O={oi}Ki=1,并将每个对象oi表示为仅在VG数据集中的图像上的视觉表示vi∈Rd1,其中K表示目标检测器检测出的目标数量大小,Rd1表示目标向量表示维度,d1表示目标向量表示维度大小。
3.根据权利要求1所述的方法,其特征在于,利用预训练的BERT作为所述语言预训练编码器,记为Ttrans,并在VG数据集的图像描述中对Tt
...【技术特征摘要】
1.一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,使用faster r-cnn作为所述视觉预训练编码器,记为vtrans,用于检测一组对象o={oi}ki=1,并将每个对象oi表示为仅在vg数据集中的图像上的视觉表示vi∈rd1,其中k表示目标检测器检测出的目标数量大小,rd1表示目标向量表示维度,d1表示目标向量表示维度大小。
3.根据权利要求1所述的方法,其特征在于,利用预训练的bert作为所述语言预训练编码器,记为ttrans,并在vg数据集的图像描述中对ttrans进行微调以增强其对自然对象的语言相关性;将vg中关于一个图像的所有密集标题连接成一个细粒度的段落,然后使用wordpiece对每个段落进行标记化,并获得一个由d个标记组成的序列,所有的标记都被输入到ttrans中,以提取上下文感知的嵌入其中j表示第j个词向量,rd2表示词向量维度,d2...
【专利技术属性】
技术研发人员:于静,熊刚,唐源民,李镇,苟高鹏,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。