多模态图像特征融合方法、装置以及设备制造方法及图纸

技术编号:37042453 阅读:26 留言:0更新日期:2023-03-29 19:21
本公开提供了一种多模态图像特征融合方法、装置以及设备,涉及人工智能技术领域,具体涉及图像处理和深度学习等技术领域,可应用于自动巡航。该方法的一具体实施方式包括:获取多个模态的图像;将多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图,其中,特征提取网络包括多个分支,每个分支输出一个尺度的特征图;对多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。该实施方式提高了多模态特征融合的精度。该实施方式提高了多模态特征融合的精度。该实施方式提高了多模态特征融合的精度。

【技术实现步骤摘要】
多模态图像特征融合方法、装置以及设备


[0001]本公开涉及人工智能
,具体涉及图像处理和深度学习
,可应用于自动巡航。

技术介绍

[0002]传感器的图像感知技术是巡航的一个极其重要的功能。对于普通场景的自动巡航,通常使用基于光学传感器获得的彩色影像可以进行图像感知。但是,对于复杂场景的自动巡航,使用单一传感器存在着许多隐患。例如,使用常规的彩色影像仅能获得外部场景的光学信息,在光照条件弱的场景下将面临着精度下降、解译能力差等问题。

技术实现思路

[0003]本公开实施例提出了一种多模态图像特征融合方法、装置、设备、存储介质以及程序产品。
[0004]第一方面,本公开实施例提出了一种多模态图像特征融合方法,包括:获取多个模态的图像;将多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图,其中,特征提取网络包括多个分支,每个分支输出一个尺度的特征图;对多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。
[0005]第二方面,本公开实施例提出了一种多模态图像特征融合装置,包括:获取模块,被配置成获取多个模态的图像;提取模块,被配置成将多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图,其中,特征提取网络包括多个分支,每个分支输出一个尺度的特征图;融合模块,被配置成对多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。
[0006]第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0007]第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0008]第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0009]本公开实施例提供的多模态图像特征融合方法,利用具有多个分支的特征提取网络提取多个模态的图像的多尺度特征图,在提取出更多的语义信息的同时,保留更多的细节信息。基于细节信息能够对齐不同模态的特征图,进而实现对不同模态的图像的多尺度特征图的特征级别的融合,提高了多模态特征融合的精度。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开的多模态图像特征融合方法的一个实施例的流程图;
[0013]图2是根据本公开的多模态图像特征融合方法的又一个实施例的流程图;
[0014]图3是根据本公开的多模态图像特征融合方法的另一个实施例的流程图;
[0015]图4是可以实现本公开实施例的多模态图像特征融合方法的场景图;
[0016]图5是特征提取示意图;
[0017]图6是特征增强示意图;
[0018]图7是根据本公开的多模态图像特征融合装置的一个实施例的结构示意图;
[0019]图8是用来实现本公开实施例的多模态图像特征融合方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0022]图1示出了根据本公开的多模态图像特征融合方法的一个实施例的流程图。该多模态图像特征融合方法包括以下步骤:
[0023]步骤101,获取多个模态的图像。
[0024]在本实施例中,多模态图像特征融合方法的执行主体可以获取多个模态的图像。
[0025]其中,不同模态的图像的像素点的内容不同。这里,多个模态的图像可以包括但不限于以下至少两项:彩色图像、深度图像和红外图像等等。彩色图像的每个像素点的像素值可以是所拍摄的目标表面的每个点的颜色值。通常,人类视力所能感知的所有颜色均是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到的。深度图像的每个像素点的像素值可以是深度摄像机与所拍摄的目标表面的每个点之间的距离。红外图像的每个像素点的像素值可以是所拍摄的目标表面的每个点反射或发射的红外线的强度值。
[0026]步骤102,将多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图。
[0027]在本实施例中,上述执行主体可以将多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图。
[0028]在该实施例中,特征提取网络可以包括多个分支,每个分支可以输出一个尺度的特征图。特征图可以包含语义信息和细节信息。特征图的尺度越大,其包含的细节信息越多,包含的语义信息越少;特征图的尺度越小,其包含的细节信息越少,包含的语义信息越多。这里,特征提取网络包括多个分支,提取多尺度特征图,使得在提取出更多的语义信息
的同时,保留更多的细节信息,减少特征提取过程中的信息损失。其中,细节信息可以包括位置信息。
[0029]需要说明的是,在一个特征提取网络同时具有多个模态的图像特征提取能力的情况下,可以将多个模态的图像依次输入至该特征提取网络,得到每个模态的图像的多尺度特征图。在一个特征提取网络仅具有一个模态的图像特征提取能力的情况下,可以将多个模态的图像分别输入至对应模态的特征提取网络,得到每个模态的图像的多尺度特征图。本申请对特征提取网络的图像特征提取能力不进行限定。
[0030]步骤103,对多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。
[0031]在本实施例中,上述执行主体可以对多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。
[0032]在该实施例中,多个模态的图像的多尺度特征图既包含多个模态的语义信息又包含多个模态的细节信息。基于多个模态的细节信息,可以在特征融合过程中对齐不同模态的特征图,提高多模态特征融合的精度。
[0033]进一步地,当应用到矿车自动巡航领域时,矿车搭载多种传感器,采用多种传感器协同的方式进行多模态图像获取,提高矿车图像感知系统的鲁棒性,实现了矿车自动巡航对外部场景的高精度感知,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态图像特征融合方法,包括:获取多个模态的图像;将所述多个模态的图像输入至特征提取网络,得到所述多个模态的图像的多尺度特征图,其中,所述特征提取网络包括多个分支,每个分支输出一个尺度的特征图;对所述多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图。2.根据权利要求1所述的方法,所述特征提取网络的特征提取过程包括多个阶段;以及所述将所述多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图,包括:对于第一阶段,对所述多个模态的图像进行下采样特征提取,得到第一阶段的多个特征图;对于第一阶段之后的一个阶段,对上一阶段的多个特征图进行下采样特征提取和原尺度特征提取,得到本阶段的多个特征图。3.根据权利要求2所述的方法,其中,第一阶段之后的一个阶段的多个特征图包括至少一个下采样特征图和至少一个原尺度特征图;以及所述对上一阶段的多个特征图进行下采样特征提取和原尺度特征提取,得到本阶段的多个特征图,包括:将上一阶段的至少一个下采样特征图分别输入至本阶段的下采样特征提取层和原尺度特征提取层,以及将上一阶段的至少一个原尺度特征图输入至本阶段的原尺度特征提取层,得到本阶段的至少一个下采样特征图和至少一个原尺度特征图。4.根据权利要求2所述的方法,其中,所述将所述多个模态的图像输入至特征提取网络,得到多个模态的图像的多尺度特征图,还包括:对于本阶段的一个模态的图像的一个尺度的特征图,将本阶段的该模态的图像的该尺度的特征图与上一阶段的其他模态的图像的该尺度的特征图进行融合,替代本阶段的该模态的图像的该尺度的特征图。5.根据权利要求4所述的方法,其中,所述将本阶段的该模态的图像的该尺度的特征图与上一阶段的其他模态的图像的该尺度的特征图进行融合,替代本阶段的该模态的图像的该尺度的特征图,包括:将本阶段的该模态的图像的该尺度的特征图与上一阶段的其他模态的图像的该尺度的特征图进行级联,得到该模态的图像的该尺度的级联特征图;通过注意力机制获取该模态的图像的该尺度的级联特征图的通道权重;利用所述通道权重对该模态的图像的该尺度的级联特征图进行增强,得到该模态的图像的该尺度的增强特征图;对该模态的图像的该尺度的增强特征图进行降维,替代本阶段的该模态的图像的该尺度的特征图。6.根据权利要求1所述的方法,其中,所述对所述多个模态的图像的多尺度特征图进行融合,得到多模态融合特征图,包括:将所述多个模态的图像的多尺度特征图采样到相同尺度,得到所述多个模态的图像的相同尺度特征图;对所述多个模态的图像的相同尺度特征图进行级联,得到所述多模态融合特征图。
7.根据权利要求6所述的方法,其中,所述将所述多个模态的图像的多尺度特征图采样到相同尺度,得到所述多个模态的图像的相同尺度特征图,包括:确定所述多个模态的图像的多尺度特征图中的最大尺度的特征图;将其他尺度的特征图上采样到与所述最大尺度的特征图相同的尺度,得到所述多个模态的图像的相同尺度特征图。8.一种多模态图像特征融合装置,包括:获取模块,被配置成获取多个模态的图像;提取模块,被配置成将所述多个模态的图像输入至特征提取网络,得到所述多个模态的图像的...

【专利技术属性】
技术研发人员:马施彬
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1