【技术实现步骤摘要】
一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法
:
[0001]本专利技术涉及计算机视觉和图像处理领域,特别地涉及一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法。
技术介绍
:
[0002]随着信息技术的发展和进步,以及日常生活中的多媒体数据量(图片、文本、音频、视频等)的爆炸式增长,促进了图像处理技术的蓬勃发展。显著性目标检测技术作为图像处理领域的一个非常重要的技术,主要分析图像中的最引人注意的目标或者区域,并自动将显著目标从背景中分离。作为最基础的密度预测任务之一,其被广泛应用在许多其他的下有任务,例如图像检索、语义分割、视觉跟踪、基于内容的图像编辑和机器人导航等。此外,显著性目标检测也被广泛应用在许多社交媒体的分析和采集过程中,例如手机拍照技术中的强调人像,背景虚化等技术应用。
[0003]早期的显著性目标检测方法大多是针对RGB图像,并且能够取得令人满意的结果。通常,现实的RGB场景更多是包含一些具有挑战性的场景,比如低对比度,多目标,透明物体,复杂 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法,其特征在于,包括基于Swin Transformer双流解码器的构建,跨模态的三流差异性监督机制,跨模态特征差异性融合模块以及级联聚合解码器。2.根据权利要求1所述一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法,其特征在于本发明利用深度学习中的Swin Transformer网络作为本发明的主干网络用于提取RGB和Depth特征。2.1分别构建两个基于Swin Transformer的编码器提取RGB特征和Depth特征,其中,Swin Transformer编码器由四个基本的Swin Transformer block组成,其定义如下所示:S=MLP(LN(W
m
(LN(F
f
))+F
f
))+W
m
(LN(F
f
))+F
f
ꢀꢀꢀꢀ
公式(1)ST=MLP(LN(W
s
(LN(S))+S))+W
s
(LN(S))+S
ꢀꢀꢀꢀ
公式(2)其中,MLP表示多层感知机,LN表示层次化归一,W
m
代表多头自注意力机制,W
s
表示基于转换窗口自注意力机制。2.2基于步骤2.1,可以得到RGB和Depth编码器的输出,分别记作,RGB特征和Depth特征3.根据权利要求1所述一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法,其特征在于,本发明设计一个跨模态双向融合模块(Bi
‑
directional Fusion Module,BFM)用于初步融合跨模态的特征,为下一阶段的三流差异性监督机制做好准备。3.1首先,使用一个3
×
3卷积操作用于增强感受野信息,然后利用交叉相乘方式得到两个跨模态的特征,分别用于增强RGB和Depth特征,定义如下:其中,α∈{r,d},i∈{1,2,3,4}表示特征在编码器中所处的层次,Sigmoid表示sigmoid激活函数。由此,经过增强后的RGB特征和Depth特征能够被生成。3.2将步骤3.1所生成的增强RGB特征和Depth特征通过连接操作进行融合,该操作如下所述:其中,cat表示连接操作,BCov表示卷积操作和批量归一化(Batch Normal。4.根据权利要求1所述一种基于多模态差异性融合网络的RGB
‑
D显著性目标检测方法,其特征在于本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为,三个分支,分别表示为RGB分支,Depth分支,以及Fusion分支。4.1基于步骤2中的Swin Transformer所生成的RGB特征构建三流差异性监督机制中的RGB分支,并采用本发明提出的级联聚合解码器预测显著性图。在RGB特征输入到CAD之前,本发明利用ASPP技术强化RGB特征的感受野,增强RGB特征的全局信息。并使用显著目标分割图S
【专利技术属性】
技术研发人员:夏晨星,段松松,黄荣梅,孙延光,段秀真,王晶晶,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。