一种基于视觉和语言的多模态混合融合细粒度识别方法技术

技术编号:41480940 阅读:22 留言:0更新日期:2024-05-30 14:30
本发明专利技术提出一种基于视觉和语言的多模态混合融合细粒度识别方法,属于深度学习技术领域。所述方法包括:利用特征提取模块从视觉模态中提取出视觉特征,以及从语言模态中提取出语言特征;其中,视觉特征被馈送至视觉模态分类器,以确定视觉模态分类结果,语言特征被馈送至语言模态分类器,以获取语言模态分类结果;利用特征融合模块基于视觉特征和语言特征生成联合特征,联合特征被馈送至多头自注意力层,经过全连接层后得到特征融合结果,并计算特征融合结果的分类置信度;利用结果融合模块,分别为视觉模态分类结果、语言模态分类结果和特征融合结果的分类置信度确定权重,基于分类置信度的权重计算最终分类结果。

【技术实现步骤摘要】

本专利技术属于深度学习,尤其涉及一种基于视觉和语言的多模态混合融合细粒度识别方法


技术介绍

1、随着人工智能的发展,基于深度学习的通用目标识别技术在许多领域,如生态环境保护中的生物多样性监测,军事领域中的目标侦察、监视等任务中已发挥着越来越重要的作用。然而,许多具体应用需要对目标所属的子类做出精确判断,称为目标的细粒度识别。对于上述细粒度识别任务,需要依靠领域专家定义的复杂规则,由于规则关注的是目标特定部位的细微差异,使得该任务极具挑战性,成为目前的研究热点。

2、目前,在开源标准数据集上,有些细粒度识别算法取得了较好的效果,但实际应用场景中,传感器获得的图像常常存在分辨率低于标准数据集、目标被遮挡、成像模糊等情况。高分辨率图像中的目标细粒度识别相对简单,而低分辨率图像中的目标轮廓不清晰、细节模糊、成像质量较低,使用同样的细粒度识别算法难以取得预期效果。

3、现有的技术方案尝试利用多模态数据提高细粒度识别效果。多模态数据是指对于同一描述对象,通过不同领域或视角获取到的数据,描述这些数据的每一个领域或视角叫做一个模态(modalit本文档来自技高网...

【技术保护点】

1.一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述特征提取模块包括视觉特征提取模块,在所述步骤S1中,由所述视觉特征提取模块从所述视觉模态中提取出所述视觉特征,具体包括:

3.根据权利要求2所述的一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述特征提取模块包括语言特征提取模块,在所述步骤S1中,由所述语言特征提取模块从所述语言模态中提取出所述语言特征,具体包括:

4.根据权利要求3所述的一种基于视觉和语言的多模态混...

【技术特征摘要】

1.一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述特征提取模块包括视觉特征提取模块,在所述步骤s1中,由所述视觉特征提取模块从所述视觉模态中提取出所述视觉特征,具体包括:

3.根据权利要求2所述的一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,所述特征提取模块包括语言特征提取模块,在所述步骤s1中,由所述语言特征提取模块从所述语言模态中提取出所述语言特征,具体包括:

4.根据权利要求3所述的一种基于视觉和语言的多模态混合融合细粒度识别方法,其特征在于,在所述步骤s2中,基于所述视觉特征和所述语言特征生成所述联合特征,具体包...

【专利技术属性】
技术研发人员:朱斌邹融平陈熠解博夏安宁王润华杨华
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1