多模态细粒度混合方法、系统、设备和存储介质技术方案

技术编号:28498862 阅读:26 留言:0更新日期:2021-05-19 22:38
本发明专利技术涉及机器视觉技术领域,公开了一种多模态细粒度混合方法、系统、设备和存储介质,所述多模态细粒度混合方法包括:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征;对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。本发明专利技术实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。影响。影响。

【技术实现步骤摘要】
多模态细粒度混合方法、系统、设备和存储介质


[0001]本专利技术涉及机器视觉
,特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。

技术介绍

[0002]随着互联网技术的飞速发展,文字、图像、音频、视频等数据正在呈指数式增长,多种模态的数据从不同的角度描述着同一个事件或者主题,使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务,成为研究领域的研究热点。
[0003]近几年来,随着深度学习技术的快速发展,人们越来越有能力解决更加复杂的机器学习问题,在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣,如人类行为识别(human activity recognition),医疗应用(medical applications),自动驾驶(autonomous driving),图像视频标注(image and video annotations),跨模态检索(cross

modal retrieval)等等。
[0004]然而,目前现有的多模态学习的方法选择模态间信息交互的方式时,都是以模态为单位。例如在图文多模态中,以图片模态和文本模态为单位,进行模态间和模态内的交互。对于单个模态中的不同组成成分,使用的是相同的交互方式。其中组成成分代表图片模态中的每一个区域特征或者是文本句子中的每一个单词。但是在多模态数据中,单模态内不同组成成分具有各自不同的特点,因此需要使用不同的交互方式。现有的多模态学习方法忽略了这一点,会使得单模态中某些组成成分融入另一个模态的无关信息。

技术实现思路

[0005]本专利技术的目的是:提供一种多模态细粒度混合方法,以多模态数据中单模态内的组成成分为单位,自适应的选择交互方式,实现多模态细粒度的信息交互。该方法将会根据不同组成成分的特点,选择合适的混合交互方法,在使用多模态数据中模态间关联关系的信息的同时,避免不相关信息的影响。
[0006]为了实现上述目的,本专利技术提供了一种多模态细粒度混合方法,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。
[0007]可选的,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θ
RCNN
);其中,I为输入的图片数据,L
V
为所述视觉区域特征中的组成成分的个数,d
V
为所述视觉区域特征的长度。
[0008]从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θ
GRU
);其中,Q为输入的文本数据,L
E
表示所述文本数据的整体的长度,d
E
表示
所述文本单词特征的组成成分的长度。
[0009]通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分V
i
和所述文本单词特征E中的文本特征组成成分E
i

[0010]其中,i∈[1,L
V
]。
[0011]其中,i∈[1,L
E
]。
[0012]可选的,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果;计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果。
[0013]可选的,所述计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性的模态内相关性
[0014][0015][0016][0017]计算各所述视觉特征组成成分V
i
的模态间相关性
[0018][0019][0020][0021][0022]归一化处理各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性获得各所述视觉特征组成成分V
i
的特性为:
[0023][0024][0025]所述计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果的步骤包括:
[0026]计算各所述文本特征组成成分E
i
的模态内相关性
[0027][0028][0029][0030][0031]计算各所述文本特征组成成分E
i
的模态间相关性
[0032][0033][0034][0035][0036]归一化处理各所述文本特征组成成分E
i
的模态内相关性和模态间相关性获得各所述文本特征组成成分E
i
的特性为:
[0037][0038][0039]可选的,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征。
[0040]可选的,所述将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视觉区域特征的自身模态信息和跨模态信息;根据各所述视觉特征组成成分的特性分别乘以所述视觉区域特征的自身注意力权重和跨模态注意力权重,使用残差结构获得融合视觉特征的步骤包括:
[0041]将所述视觉区域特征V转换到对应的视觉区域查询特征V
Q
、视觉键特征V
K
和区域值特征
[0042]视觉区域查询特征V
Q
=Linear(V;θ
VQ
);
[0043]视觉键特征V
K
=Linear(V;θ
VK
);
[0044]区域值特征V
V
=Linear(V;θ
VV
);
[0045]将所述文本单词特征E转换到对应的单词查询特征E
Q
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态细粒度混合方法,其特征在于,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。2.根据权利要求1所述的方法,其特征在于,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θ
RCNN
);其中,I为输入的图片数据,L
V
为所述视觉区域特征中的组成成分的个数,d
V
为所述视觉区域特征的长度;从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θ
GRU
);其中,Q为输入的文本数据,L
E
表示所述文本数据的整体的长度,d
E
表示所述文本单词特征的组成成分的长度;通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分V
i
和所述文本单词特征E中的文本特征组成成分E
i
;其中,i∈[1,L
V
];其中,i∈[1,L
E
]。3.根据权利要求2所述的方法,其特征在于,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果;计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果。4.根据权利要求3所述的方法,其特征在于,所述计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性的模态内相关性的模态内相关性的模态内相关性
计算各所述视觉特征组成成分V
i
的模态间相关性的模态间相关性的模态间相关性的模态间相关性的模态间相关性归一化处理各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性获得各所述视觉特征组成成分V
i
的特性为:的特性为:所述计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果的步骤包括:计算各所述文本特征组成成分E
i
的模态内相关性的模态内相关性的模态内相关性的模态内相关性的模态内相关性计算各所述文本特征组成成分E
i
的模态间相关性的模态间相关性的模态间相关性的模态间相关性的模态间相关性归一化处理各所述文本特征组成成分E
i
的模态内相关性和模态间相关性获得
各所述文本特征组成成分E
i
的特性为:的特性为:5.根据权利要求4所述的方法,其特征在于,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视...

【专利技术属性】
技术研发人员:廖清廖鑫鑫漆舒汉蒋琳王轩
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1