多模态细粒度混合方法、系统、设备和存储介质技术方案

技术编号:28498862 阅读:37 留言:0更新日期:2021-05-19 22:38
本发明专利技术涉及机器视觉技术领域,公开了一种多模态细粒度混合方法、系统、设备和存储介质,所述多模态细粒度混合方法包括:从多模态图文数据中提取数据特征,并获取数据特征的各个组成成分;数据特征包括视觉区域特征和文本单词特征;对数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。本发明专利技术实施例提供的多模态细粒度混合方法在多模态细粒度混合时不以模态为单位进行,考虑到了各模态中不同组成成分的特点,所处上下文环境的差异,选择对应的合适的交互方式,可以使得多模态模型在利用多模态数据互补的特点的同时,避免不相关信息的影响。影响。影响。

【技术实现步骤摘要】
多模态细粒度混合方法、系统、设备和存储介质


[0001]本专利技术涉及机器视觉
,特别是涉及一种多模态细粒度混合方法、系统、设备和存储介质。

技术介绍

[0002]随着互联网技术的飞速发展,文字、图像、音频、视频等数据正在呈指数式增长,多种模态的数据从不同的角度描述着同一个事件或者主题,使人们对其的理解更加充分与丰富。如何有效利用多模态数据完成相应场景下的指定任务,成为研究领域的研究热点。
[0003]近几年来,随着深度学习技术的快速发展,人们越来越有能力解决更加复杂的机器学习问题,在分析处理多模态数据方面也取得了巨大的进步。很多多模态应用领域也引起了研究者的研究兴趣,如人类行为识别(human activity recognition),医疗应用(medical applications),自动驾驶(autonomous driving),图像视频标注(image and video annotations),跨模态检索(cross

modal retrieval)等等。
[0004]然而,目前现有的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态细粒度混合方法,其特征在于,所述方法包括:从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分;所述数据特征包括视觉区域特征和文本单词特征;对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果;根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征。2.根据权利要求1所述的方法,其特征在于,所述从多模态图文数据中提取数据特征,并获取所述数据特征的各个组成成分的步骤包括:从多模态图文数据中,通过Faster RCNN模型获得视觉区域特征V,V=RCNN(I;θ
RCNN
);其中,I为输入的图片数据,L
V
为所述视觉区域特征中的组成成分的个数,d
V
为所述视觉区域特征的长度;从多模态图文数据中,通过门控循环单元GRU获得文本单词特征E,E=GRU(Q,θ
GRU
);其中,Q为输入的文本数据,L
E
表示所述文本数据的整体的长度,d
E
表示所述文本单词特征的组成成分的长度;通过全连接层将所述视觉区域特征V和所述文本单词特征E转换到相同维度的向量,获得所述视觉区域特征V中的视觉特征组成成分V
i
和所述文本单词特征E中的文本特征组成成分E
i
;其中,i∈[1,L
V
];其中,i∈[1,L
E
]。3.根据权利要求2所述的方法,其特征在于,所述对所述数据特征的各个组成成分的模态信息进行细粒度分类,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果;计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果。4.根据权利要求3所述的方法,其特征在于,所述计算各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性,获得各所述视觉特征组成成分V
i
的特性,得到分类结果的步骤包括:计算各所述视觉特征组成成分V
i
的模态内相关性的模态内相关性的模态内相关性的模态内相关性
计算各所述视觉特征组成成分V
i
的模态间相关性的模态间相关性的模态间相关性的模态间相关性的模态间相关性归一化处理各所述视觉特征组成成分V
i
的模态内相关性和模态间相关性获得各所述视觉特征组成成分V
i
的特性为:的特性为:所述计算各所述文本特征组成成分E
i
的模态内相关性和模态间相关性,获得各所述文本特征组成成分E
i
的特性,得到分类结果的步骤包括:计算各所述文本特征组成成分E
i
的模态内相关性的模态内相关性的模态内相关性的模态内相关性的模态内相关性计算各所述文本特征组成成分E
i
的模态间相关性的模态间相关性的模态间相关性的模态间相关性的模态间相关性归一化处理各所述文本特征组成成分E
i
的模态内相关性和模态间相关性获得
各所述文本特征组成成分E
i
的特性为:的特性为:5.根据权利要求4所述的方法,其特征在于,所述根据所述分类结果,对各个组成成分进行来自模态内和模态间的信息融合,得到融合特征的步骤包括:将所述视觉区域特征和所述文本单词特征转化为对应的查询特征和键值对特征;计算所述视...

【专利技术属性】
技术研发人员:廖清廖鑫鑫漆舒汉蒋琳王轩
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1