一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法和系统技术方案

技术编号：40416638 阅读：34 留言：0更新日期：2024-02-20 22:34

本发明专利技术涉及一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法和系统。该方法包括：采用视觉预训练编码器和语言预训练编码器分别获取图像目标表示和对应的文本单词表示，构建视觉向量表示空间和语言向量表示空间；基于视觉语言共线关系的结构一致性，分阶段由粗到细地将视觉向量表示空间映射到语言向量表示空间，从而将图像目标表示与相应的文本单词表示进行对齐。本发明专利技术从人类的认知角度的多模态共现结构一致性出发，分三阶段从粗到细将视觉表示对齐到了上下文一致的语言表示，最终得到一个简单的线性映射层，可以很容易地和各种视觉语言结合，将视觉表示对齐到相应的语言表示，提升了模型细粒度关联视觉语言信息的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息，涉及视觉语言模态对齐、视觉语言预训练技术，具体涉及一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法和系统。

技术介绍

1、视觉语言对齐(vison and language alignment)是视觉语言多模态学习中的基础任务。其指对齐视觉和语言特征的过程，以便它们可以一起用于各种任务，如图像检索(image text retrieval)，场景图生成(scene graph generation，sgg)以及指代表达理解(referring expression comprehension)等。

2、视觉语言对齐最开始专注于解决视觉和语言场景中的各个专用任务，这些任务通常通过将视觉和语言映射到一个联合表示空间或通过交叉注意力机制进行视觉语言对齐。这种对齐是与特定的视觉与语言任务一起学习的，缺乏对其他相关任务有益的通用能力。因此，近段时间视觉语言预训练模型广泛应用于各个视觉语言任务中，其试图利用视觉语言预训练技术(vision-language pertaining,vlp)以隐式注意力的方式学习跨...

【技术保护点】

1.一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，使用Faster R-CNN作为所述视觉预训练编码器，记为Vtrans，用于检测一组对象O＝{oi}Ki＝1，并将每个对象oi表示为仅在VG数据集中的图像上的视觉表示vi∈Rd1，其中K表示目标检测器检测出的目标数量大小，Rd1表示目标向量表示维度，d1表示目标向量表示维度大小。

3.根据权利要求1所述的方法，其特征在于，利用预训练的BERT作为所述语言预训练编码器，记为Ttrans，并在VG数据集的图像描述中对Ttrans进行微调以增...

【技术特征摘要】

1.一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，使用faster r-cnn作为所述视觉预训练编码器，记为vtrans，用于检测一组对象o＝{oi}ki＝1，并将每个对象oi表示为仅在vg数据集中的图像上的视觉表示vi∈rd1，其中k表示目标检测器检测出的目标数量大小，rd1表示目标向量表示维度，d1表示目标向量表示维度大小。

3.根据权利要求1所述的方法，其特征在于，利用预训练的bert作为所述语言预训练编码器，记为ttrans，并在vg数据集的图像描述中对ttrans进行微调以增强其对自然对象的语言相关性；将vg中关于一个图像的所有密集标题连接成一个细粒度的段落，然后使用wordpiece对每个段落进行标记化，并获得一个由d个标记组成的序列，所有的标记都被输入到ttrans中，以提取上下文感知的嵌入其中j表示第j个词向量，rd2表示词向量维度，d2...

【专利技术属性】
技术研发人员：于静，熊刚，唐源民，李镇，苟高鹏，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人