当前位置: 首页 > 专利查询>浙江大学专利>正文

一种深度感知和多模态自动融合的RGB-D显著性目标检测方法技术

技术编号:28057089 阅读:1 留言:0更新日期:2021-04-14 13:29
本发明专利技术公开了一种深度感知和多模态自动融合的RGB

【技术实现步骤摘要】
一种深度感知和多模态自动融合的RGB

D显著性目标检测方法


[0001]本专利技术涉及计算机视觉领域,特别地涉及一种深度感知和多模态自动融合的RGB

D显著性目标检测方法。

技术介绍

[0002]RGB

D显著性目标检测问题旨在利用成对的彩色图像与深度图像,检测场景中最显着的物体,并给出该物体的分割图,可以为图像检索,视频分割,行人重识别等众多领域提供帮助,近年来因为深度学习模型的出现得到了较大的发展。
[0003]深度图像作为场景中的重要显著性依据,蕴含了丰富的空间结构信息和物体边界信息,如何利用深度图像辅助显著性区域的判断是至关重要的。此前基于深度学习的RGB

D显著性目标检测方法,通常将深度图像单独提取特征,或作为彩色图像的第四个维度,将彩色图像与深度图像平等得对待,并没有显式建模深度分布与显著性物体的空间位置关系,且两种特征的融合方式是通过启发式手工设计的。
[0004]考虑到彩色图像与深度图像的数据来源存在差异,本专利技术尝试探索更多的深度图像利用方式。其一,是将深度拆解为三个部分来辅助排除彩色图像中的背景干扰,并指导彩色图像特征的提取,其二,是利用神经网络搜索技术将深度图像特征与彩色图像特征做自动融合。以此适应不同复杂场景下的显著性目标检测任务。

技术实现思路

[0005]针对以上问题,本专利技术提供了一种深度感知和多模态自动融合的RGB

D显著性目标检测方法。
[0006]本专利技术具体采用的技术方案如下:
[0007]一种深度感知和多模态自动融合的RGB

D显著性目标检测方法,其包括以下步骤:
[0008]S1、获取训练该任务的图像数据集;
[0009]S2、分别建立用于提取彩色图像与深度图像的深度神经网络;
[0010]S3、建立用于多模态自动融合的超网络结构;
[0011]S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;
[0012]S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;
[0013]S6:将待检测的彩色图像与深度图像输入训练好的神经网络模型中,预测图中的显著性目标。
[0014]作为优选,所述S1中的图像数据集包括单帧彩色图像I
train
和对应的深度图像D
train
,以及人工标注的显著目标分割图P
train

[0015]作为优选,定义算法目标为预测单帧图像中的显著性目标的分割图
[0016]进一步的,所述S2包括以下子步骤:
[0017]S21、对于每个单帧彩色图像I
train
,其特征提取的深度神经网络由VGG19网络结构
与4个插入的DSAM模块构成;其中第i个DSAM模块以VGG19的第i个卷积模块的输出r

i
作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4};在i个DSAM模块中,首先根据对应的深度图像D
train
的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与r
i
维度相同的三个子图像然后通过如下操作获得深度感知的彩色图像特征R
i

[0018][0019]式中Conv表示1
×
1的卷积模型;
[0020]四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合;
[0021]S22、每个对应的深度图像D
train
,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合。
[0022]进一步的,所述S3中用于多模态自动融合的超网络结构具体构成如下:
[0023]S31、使用三个多模态单元来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征C
n

[0024]C
n
=MM
n
(r
n+1
,r
n+2
,d
n+1
,d
n+2
),n∈{1,2,3}
[0025]其中MM
n
()表示第n个多模态单元;
[0026]S32、使用四个多尺度单元来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征D
m

[0027][0028]其中MS
m
()表示第m个多尺度单元;
[0029]S33、使用一个特征聚集单元来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:
[0030]G=GA(D1,D2,D3,D4)
[0031]其中GA()表示特征聚集单元;
[0032]S34、使用两个级联的结构加强单元来得到最终的显著性图,每个单元以前一单元的输出和S2中的两种模态特征为输入,来加强最终显著性特征的结构信息,并进行尺度对齐:
[0033]L1=SR1(θ(G),d2,r2)
[0034]L2=SR2(θ(L1),d1,r1)
[0035]其中θ()代表上采样操作,SR
n
代表第n个结构加强单元,L2为最终的显著性图预测结果
[0036]进一步的,所述S4中基于所述的超网络进行神经网络结构搜索操作如下:
[0037]S41、针对S3中共同构成超网络的四种单元,将每一种单元内部都看做由X个节点
构成的有向无环图,分别设置四种单元内的节点数;然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接;节点x
i
、x
j
之间的连接关系表示为:
[0038][0039]其中o
(i,j)
()代表候选操作集合Q中候选操作的一种;
[0040]用Softmax函数将所有候选操作集加和在一起,构成单元内连续的搜索空间:
[0041][0042]其中代表选择x
i
和x
j
之间的候选操作o的可学习权重参数;
[0043]整个搜索空间由四种单元的所有结构参数构成。
[0044]S42、在神经网络结构搜索阶段,用所述的超网络对数据集图像对进行预测,表示为:
[0045][0046]其中F

()表示超网络函数,表示超网络的预测结果,ω

为超网络中模型的卷积网络参数,α
′本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度感知和多模态自动融合的RGB

D显著性目标检测方法,其特征在于包括以下步骤:S1、获取训练该任务的图像数据集;S2、分别建立用于提取彩色图像与深度图像的深度神经网络;S3、建立用于多模态自动融合的超网络结构;S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;S6:将待检测的彩色图像与深度图像输入训练好的神经网络模型中,预测图中的显著性目标。2.根据权利要求1所述的深度感知和多模态自动融合的RGB

D显著性目标检测方法,其特征在于所述S1中的图像数据集包括单帧彩色图像I
train
和对应的深度图像D
train
,以及人工标注的显著目标分割图P
train
。3.根据权利要求1所述的深度感知和多模态自动融合的RGB

D显著性目标检测方法,其特征在于,定义算法目标为预测单帧图像中的显著性目标的分割图4.根据权利要求2所述的深度感知和多模态自动融合的RGB

D显著性目标检测方法,其特征在于所述S2包括以下子步骤:S21、对于每个单帧彩色图像I
train
,其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成;其中第i个DSAM模块以VGG19的第i个卷积模块的输出r

i
作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4};在i个DSAM模块中,首先根据对应的深度图像D
train
的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与r
i
维度相同的三个子图像然后通过如下操作获得深度感知的彩色图像特征R
i
:式中Conv表示1
×
1的卷积模型;四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合;S22、每个对应的深度图像D
train
,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合。5.根据权利要求3所述的所述的深度感知和多模态自动融合的RGB

D显著性目标检测方法,其特征在于所述S3中用于多模态自动融合的超网络结构具体构成如下:S31、使用三个多模态单元来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征C
n
:C
n
=MM
n
(r
n+1
,r
n+2
,d
n+1
,d
n+2
),n∈{1,2,3}其中MM
n
()表示第n个多模态单元;S32、使用四个多尺度单元来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征D
m

其中MS
m
()表示第m个多尺度单元;S33、使用一个特征聚集单元来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:G=GA(D1,D...

【专利技术属性】
技术研发人员:李玺张文虎孙鹏
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1