System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双流非对称网络的显著性物体检测方法、设备及介质技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

基于双流非对称网络的显著性物体检测方法、设备及介质技术

技术编号:40345211 阅读:8 留言:0更新日期:2024-02-09 14:31
基于双流非对称网络的显著性物体检测方法、设备及介质,构建深度学习模型对输入RGB图像和热图像进行显著性物体检测,首先由由非对称骨架网络进行RGB模态和T模态的特征提取,然后将前两阶段的特征输入通道‑空间特征交互模块进行模态特征交互,再将后两阶段的特征通过自注意力增强模块进行特征加强,最后通过RGB编码器、热编码器和融合特征编码器得到显著性物体检测图像。本发明专利技术针对RGB和热红外模态在通道数量和信息密度方面存在差异的问题提出了一种新颖的非对称网络,可以实现定位包含RGB和热红外信息的图像中的显著目标,在保证模型检测效果的情况下节省了不必要的计算开销,为模型部署提供了支持,具有良好的实用性。

【技术实现步骤摘要】

本专利技术属于计算机视觉,涉及显著性物体检测技术,尤其涉及在黑暗或复杂背景下使用可见光图像和红外热图像结合的显著性物体检测方法,为一种基于双流非对称网络的rgbt显著性物体检测方法、设备。


技术介绍

1、基于rgb-thermal的显著对象检测(rgb-t sod)旨在定位可见光和红外热成像图像对中的共同显著对象,并准确地分割属于那些对象的所有像素。它在自动裁剪、自动驾驶和语义分割等领域具有广泛应用。早期的研究主要集中在处理rgb图像或rgb-深度数据。热红外图像对光照条件不敏感,适用于具有挑战性的场景,包括夜间和具有复杂背景的场景。

2、显著性检测模型性能的提高依赖于强的特征提取器和强的特征交互方式。最初的rgb-tsod方法主要依赖cnn,基于cnn的方法比较轻量,但缺乏对全局特征的关注,因此它们的性能不佳。随着transformer的发展,基于它的rgb-t sod方法逐渐出现。基于transformer的rgb-t sod方法显著提高了检测准确性,但往往具有大量的计算参数,阻碍了它在边缘或嵌入式设备上的部署。因此,基于transformer的sod方法应优先考虑轻量级设计。

3、在rgb-t sod领域的先前研究中,与rgb模态相比,热红外模态的重要性得到了认可,并倡导使用双流对称结构来解决rgb图像的潜在损坏或热红外图像的损坏。然而,rgb和热红外模态之间存在明显的信息密度差距。热红外模态应作为rgb模态的辅助和补充模态。因此,采用对称网络会导致计算资源的低效利用。最近在rgb-深度任务中的研究提出了不对称网络。这些网络在rgb模态中采用transformer模型,在深度模态中采用轻量级cnn模型,同时保持检测效果并降低模型复杂性。由于rgb-t数据集中存在rgb图像损坏,如极端黑暗或模糊,采用轻量级cnn结构会严重影响检测性能。因此,实现有效的融合变得具有挑战性,在rgb图像信息不完整的情况下,热红外模态在捕捉全局特征方面存在不足,导致显著区域的检测不足。


技术实现思路

1、本专利技术要解决的问题是:提供一种在黑暗或复杂背景下使用可见光图像和红外热图像结合的显著性物体检测方法,在保证检测效果的同时尽可能减小不必要的计算开销,节约计算资源。

2、本专利技术的技术方案为:基于双流非对称网络的显著性物体检测方法,构建深度学习模型对输入的rgb图像和热图像进行显著性物体检测,首先由一个非对称骨架网络对输入图像进行rgb模态和t模态的特征提取,所述非对称骨架网络由swin transformer网络和mobilevit网络实现,其中swin transformer网络用于rgb模态的特征提取,mobilevit网络用于热模态的特征提取,两个网络分别提取图像的四个阶段rgb特征和四个阶段热红外特征,用于后续的交互操作;

3、其中将提取的前两阶段的特征输入通道-空间特征交互模块,基于空间注意力和通道注意力的混合注意力机制进行模态特征交互,将后两阶段的特征通过自注意力增强模块进行特征加强,最后两种模态的特征分别通过rgb解码器、热解码器,融合后得到显著性物体检测图像;所生成的预测显著性图精确到像素级别。

4、进一步的,本专利技术包括以下步骤:

5、1)首先把rgb图像和热图像变换到同一大小,把rgb图像输入swin transformer网络,用于提取出4个阶段不同大小的rgb模态特征图,同时把热图像输入mobilevit网络,用于提取出4个阶段不同大小的热模态特征图把两组对应的4阶段特征图缩放到同一通道数;

6、2)先将两个模态前两阶段特征图输入通道-空间特征交互模块,首先各自将两个模态的输入特征图通过空间注意力机制,再将两个输入特征图拼接的特征图通过一个通道注意力,用3×3卷积缩放后分别与通过空间注意力的两个模态的特征逐点相加,生成两个模态融合后的特征;

7、3)由两个模态融合后的特征继续生成后两个阶段的特征图,将两个模态后两阶段的特征图输入自注意力增强模块分别进行自注意力增强,自注意力增强模块采用八头自注意力机制,首先将特征映射到k、q、v,再通过一个线性层,接着用缩放点积注意力分别对8个头进行计算,将结果拼接并用线性层映射,分别输出rgb模态增强特征和热模态增强特征;

8、4)分别使用rgb解码器和热解码器对两个模态的特征进行解码并融合,生成最终的显著性物体检测图。

9、本专利技术还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行,实现上述的基于双流非对称网络的rgbt显著性物体检测方法,得到所述的深度学习模型,对输入的rgb图像和热图像进行显著性物体检测。

10、本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序被执行时实现上述的基于双流非对称网络的rgbt显著性物体检测方法。

11、本专利技术提出一种基于非对称双流网络adnet,实现基于rgbt图像的显著性物体检测。本专利技术利用非对称的骨干网络,以提取图像的四个阶段的rgb特征和四个阶段的热红外特征。为了有效促进前两个阶段的低层特征交互,本专利技术引入了通道-空间交互(csi)模块,在后两个阶段中,本专利技术采用自注意力增强(sae)模块来增强深层特征,最后通过解码器还原出显著性区域,得到像素级别的显著性物体检测图。

12、本专利技术提出了一种基于双流非对称网络的rgbt显著性物体检测方法,在节省计算开销的同时保证了模型检测性能。本专利技术融合transformer和cnn的优势,利用混合注意力机制关注特征的显著性区域。具体来说,我们通过swin-b transformer提取4个阶段的rgb特征,通过mobilevit提取4个阶段的thermal特征,对于前两个阶段的低级特征,用通道注意力和空间注意力进行特征交互,对于后两个阶段的深层特征,用多头自注意力机制进行加强,这种混合注意力机制的设计可以促进低级特征的互补交互和深层特征的加强。

13、本专利技术能解决现有方法中模型参数量、计算量过大的问题。主要的贡献点在于:

14、(1)本专利技术提出了一种非对称式的rgbt sod网络,将swin-b用于rgb特征提取,将mobilevit用于thermal特征提取,本专利技术融合transformer和cnn的优势,既关注全局特征又关注局部特征,实验结果表明本法在降低模型参数量和计算量的同时取得了最好的效果。

15、(2)本专利技术提出了一个用于底层特征的注意力交互模块,把特征提取器提取的前两层特征压到相同的通道数,通过通道注意力和空间注意力进行rgb和thermal低层特征的交互,使得模型可以更好地利用cnn关注局部特征的能力。

16、(3)本专利技术提出了一种基于多头自注意力机制的高层特征增强方法,把特征提取器提取的后两层特征通过该注意本文档来自技高网...

【技术保护点】

1.基于双流非对称网络的显著性物体检测方法,其特征是构建深度学习模型对输入的RGB图像和热图像进行显著性物体检测,首先由一个非对称骨架网络对输入图像进行RGB模态和T模态的特征提取,所述非对称骨架网络由Swin Transformer网络和MobileVit网络实现,其中Swin Transformer网络用于RGB模态的特征提取,MobileVit网络用于热模态的特征提取,两个网络分别提取图像的四个阶段RGB特征和四个阶段热红外特征,用于后续的交互操作;

2.根据权利要求1所述的基于双流非对称网络的RGBT显著性物体检测方法,其特征是包括以下步骤:

3.根据权利要求2所述的的基于双流非对称网络的RGBT显著性物体检测方法,其特征是步骤1)中,使用预训练的Swin-B作为RGB模态的骨干网络,首先将输入分割成一系列的图块,然后在四个阶段中提取特征图,其中通道数量每个阶段翻倍,特征图尺寸每个阶段减半;热模态利用预训练的Mobilevit模型作为其骨干网络,输入为与RGB模态相同尺寸的红外图像,首先,执行一个3×3的卷积操作从热图像中提取局部特征,随后按照RGB分支的方式,将骨干网络分为四个阶段,每个阶段通道数量翻倍,分辨率减半;RGB和热红外模态的第1至阶段和第2阶段的特征通过1×1卷积调整大小为64个通道,并随后输入到通道-空间交互CSI模块中。

4.根据权利要求2所述的的基于双流非对称网络的RGBT显著性物体检测方法,其特征是步骤2)中,基于通道注意力和空间注意力混合机制,分别提取两种模态在1至4阶段的特征,将其表示为两组特征:和

5.根据权利要求2所述的的基于双流非对称网络的RGBT显著性物体检测方法,其特征是步骤3)中,首先针对每个模态分别定义一个多头自注意力机制如下:

6.根据权利要求2所述的的基于双流非对称网络的RGBT显著性物体检测方法,其特征是步骤4)中,采用残差块结构构建卷积解码器,由4个残差块组成,每个块包括一个3×3的卷积层、64个输出通道、一个BatchNorm层和一个ReLU激活函数,每个残差块的输出通过双线性插值进行上采样,以匹配后续残差块的输入尺寸。

7.一种电子设备,其特征是所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行,实现权利要求1-6任一项所述的基于双流非对称网络的RGBT显著性物体检测方法,得到所述的深度学习模型,对输入的RGB图像和热图像进行显著性物体检测。

8.一种计算机可读存储介质,其特征是所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序被执行时实现如权利要求1-6任一项所述的基于双流非对称网络的RGBT显著性物体检测方法。

...

【技术特征摘要】

1.基于双流非对称网络的显著性物体检测方法,其特征是构建深度学习模型对输入的rgb图像和热图像进行显著性物体检测,首先由一个非对称骨架网络对输入图像进行rgb模态和t模态的特征提取,所述非对称骨架网络由swin transformer网络和mobilevit网络实现,其中swin transformer网络用于rgb模态的特征提取,mobilevit网络用于热模态的特征提取,两个网络分别提取图像的四个阶段rgb特征和四个阶段热红外特征,用于后续的交互操作;

2.根据权利要求1所述的基于双流非对称网络的rgbt显著性物体检测方法,其特征是包括以下步骤:

3.根据权利要求2所述的的基于双流非对称网络的rgbt显著性物体检测方法,其特征是步骤1)中,使用预训练的swin-b作为rgb模态的骨干网络,首先将输入分割成一系列的图块,然后在四个阶段中提取特征图,其中通道数量每个阶段翻倍,特征图尺寸每个阶段减半;热模态利用预训练的mobilevit模型作为其骨干网络,输入为与rgb模态相同尺寸的红外图像,首先,执行一个3×3的卷积操作从热图像中提取局部特征,随后按照rgb分支的方式,将骨干网络分为四个阶段,每个阶段通道数量翻倍,分辨率减半;rgb和热红外模态的第1至阶段和第2阶段的特征通过1×1卷积调整大小为64个通道,并随后输入到通道-空间交互csi模块中。

4.根据...

【专利技术属性】
技术研发人员:任桐炜贝佳方亚群侯瑞超
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1