一种多层次深度辅助性RGB-D显著性目标检测方法技术

技术编号:25951175 阅读:52 留言:0更新日期:2020-10-17 03:43
本发明专利技术公开了一种多层次深度辅助性RGB‑D显著性目标检测方法,其在训练阶段,获取包含彩色真实目标图像及对应的深度图像和真实显著性图像的训练集;构建多层次架构的卷积神经网络;将彩色真实目标图像及对应的深度图像输入到卷积神经网络中进行训练,即将深度信息作为彩色信息的辅助信息输入到卷积神经网络中,既保留了主要的彩色信息,又有深度信息做辅助,使得训练得到的卷积神经网络训练模型不会因为重视深度信息而忽视了作为主体的彩色信息;在测试阶段,利用卷积神经网络训练模型巧妙地融合了彩色信息和深度信息,使得得到的预测显著性检测图像的效果更好。

【技术实现步骤摘要】
一种多层次深度辅助性RGB-D显著性目标检测方法
本专利技术涉及一种人眼显著性目标检测方法,尤其是涉及一种多层次深度辅助性RGB-D显著性目标检测方法。
技术介绍
在计算机视觉中,显著性目标检测是确定目标的过程,找出人在看图像时最先看到的部分。显著性目标检测可以被运用在很多地方,例如:图像和视频压缩、基于内容的图像检索、图片编辑和操作等。RGB-D传感器已广泛应用于许多人机交互系统中。RGB-D传感器可以捕捉RGB-D图像,以便更好地分析人们所看到的东西。如果RGB-D传感器能够模仿人类的视觉注意机制,识别出它们视野中最具吸引力的物体,那么它们的智能将会取得令人印象深刻的进步。这个想法可以通过RGB-D显著性目标检测方法来实现,它通过颜色和深度线索来突出场景中突出的物体。传统的计算机视觉显著性目标检测方法是识别图像中与周围环境有不同上下文信息的部分。要识别图像的突出对象,需要局部和全局上下文信息。局部上下文信息可以帮助重建对象边界,全局上下文信息有利于获得突出对象的抽象描述。这些信息都是可以通过不同的模型设计来获得的。而深度信息不一样,深度信息需要从深度图像中提取。当深度图像出现后,无疑给显著性目标检测方法的未来带来了新的可能。深度图像具有彩色图像没有的深度信息,深度信息经过提取可以显著地提高目标检测的效率。RGB-D模型便流行了起来,但是如何将彩色信息和深度信息紧密融合也成了新的挑战。在现有的RGB-D显著性目标检测方法中,深度信息主要用于两个方面:一个方面是直接纳入到网络中作为补充的颜色特性,另一个方面是获取深度的隐式属性。然而,这些方法存在深度信息和彩色信息融合困难的问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种多层次深度辅助性RGB-D显著性目标检测方法,其能够高效地融合彩色信息和深度信息,从而能够有效地提高显著性目标检测效果。本专利技术解决上述技术问题所采用的技术方案为:一种多层次深度辅助性RGB-D显著性目标检测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅彩色真实目标图像和对应的深度图像,以及每幅彩色真实目标图像对应的真实显著性图像,并构成训练集,将训练集中的第q幅彩色真实目标图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的深度图像记为{Dq(i,j)},将训练集中与{Iq(i,j)}对应的真实显著性图像记为其中,彩色真实目标图像为RGB彩色图像,深度图像为二值的灰度图,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W″,1≤j≤H″,W″表示{Iq(i,j)}、{Dq(i,j)}、的宽度,H″表示{Iq(i,j)}、{Dq(i,j)}、的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图像输入层和深度图像输入层;隐层包括第1个彩色神经网络块,第2个彩色神经网络块,第3个彩色神经网络块,第4个彩色神经网络块,由第1个彩色带孔卷积块、第2个彩色带孔卷积块、第3个彩色带孔卷积块、第4个彩色带孔卷积块、第5个彩色带孔卷积块、第6个彩色带孔卷积块、第7个彩色带孔卷积块、第8个彩色带孔卷积块、第9个彩色带孔卷积块、第10个彩色带孔卷积块、第1个彩色上采样层、第2个彩色上采样层、第3个彩色上采样层、第4个彩色上采样层、第5个彩色上采样层、第6个彩色上采样层、第1个级联层、第2个级联层、第3个级联层组成的彩色混合模块,第1个彩色卷积块,第2个彩色卷积块,第3个彩色卷积块,第1个深度神经网络块,第2个深度神经网络块,第3个深度神经网络块,第4个深度神经网络块,由第1个深度带孔卷积块、第2个深度带孔卷积块、第3个深度带孔卷积块、第4个深度带孔卷积块、第5个深度带孔卷积块、第6个深度带孔卷积块、第7个深度带孔卷积块、第8个深度带孔卷积块、第9个深度带孔卷积块、第10个深度带孔卷积块、第1个深度上采样层、第2个深度上采样层、第3个深度上采样层、第4个深度上采样层、第5个深度上采样层、第6个深度上采样层、第4个级联层、第5个级联层、第6个级联层组成的深度混合模块,第1个深度卷积块,第2个深度卷积块,第3个深度卷积块,由第1个相加操作、第2个相加操作、第3个相加操作、第4个相加操作、第5个相加操作、第6个相加操作、第7个相加操作、第4个彩色卷积块、第5个彩色卷积块、第6个彩色卷积块、第7个彩色上采样层、第8个彩色上采样层、第9个彩色上采样层、第4个深度卷积块、第5个深度卷积块、第6个深度卷积块、第7个深度上采样层、第8个深度上采样层、第9个深度上采样层组成的彩色深度混合模块,第7个级联层,第1个混合卷积块,第2个混合卷积块,第3个混合卷积块,第1个混合上采样层;对于RGB图像输入层,其输入端接收一幅原始输入RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始输入RGB图像的R通道分量、G通道分量和B通道分量给隐层;其中,原始输入RGB图像的宽度为W、高度为H;对于第1个彩色神经网络块,其输入端接收RGB图像输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,其输出端输出256幅特征图,将这256幅特征图构成的集合记为PRGB1,PRGB1中的每幅特征图的宽度为高度为对于第2个彩色神经网络块,其输入端接收PRGB1中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为PRGB2,PRGB2中的每幅特征图的宽度为高度为对于第3个彩色神经网络块,其输入端接收PRGB2中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为PRGB3,PRGB3中的每幅特征图的宽度为高度为对于第4个彩色神经网络块,其输入端接收PRGB3中的所有特征图,其输出端输出2048幅特征图,将这2048幅特征图构成的集合记为PRGB4,PRGB4中的每幅特征图的宽度为高度为对于彩色混合模块,第1个彩色带孔卷积块的输入端接收PRGB1中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB1,CRGB1中的每幅特征图的宽度为高度为第2个彩色带孔卷积块的输入端接收PRGB2中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB2,CRGB2中的每幅特征图的宽度为高度为第3个彩色带孔卷积块的输入端接收PRGB2中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CRGB3,CRGB3中的每幅特征图的宽度为高度为第4个彩色带孔卷积块的输入端接收PRGB3中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB4,CRGB4中的每幅特征图的宽度为高度为第5个彩色带孔卷积块的输入端接收PRGB3中的所有特征图本文档来自技高网
...

【技术保护点】
1.一种多层次深度辅助性RGB-D显著性目标检测方法,其特征在于包括训练阶段和测试阶段两个过程;/n所述的训练阶段过程的具体步骤为:/n步骤1_1:选取Q幅彩色真实目标图像和对应的深度图像,以及每幅彩色真实目标图像对应的真实显著性图像,并构成训练集,将训练集中的第q幅彩色真实目标图像记为{I

【技术特征摘要】
1.一种多层次深度辅助性RGB-D显著性目标检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅彩色真实目标图像和对应的深度图像,以及每幅彩色真实目标图像对应的真实显著性图像,并构成训练集,将训练集中的第q幅彩色真实目标图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的深度图像记为{Dq(i,j)},将训练集中与{Iq(i,j)}对应的真实显著性图像记为其中,彩色真实目标图像为RGB彩色图像,深度图像为二值的灰度图,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W″,1≤j≤H″,W″表示{Iq(i,j)}、{Dq(i,j)}、的宽度,H″表示{Iq(i,j)}、{Dq(i,j)}、的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,Dq(i,j)表示{Dq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层;输入层包括RGB图像输入层和深度图像输入层;隐层包括第1个彩色神经网络块,第2个彩色神经网络块,第3个彩色神经网络块,第4个彩色神经网络块,由第1个彩色带孔卷积块、第2个彩色带孔卷积块、第3个彩色带孔卷积块、第4个彩色带孔卷积块、第5个彩色带孔卷积块、第6个彩色带孔卷积块、第7个彩色带孔卷积块、第8个彩色带孔卷积块、第9个彩色带孔卷积块、第10个彩色带孔卷积块、第1个彩色上采样层、第2个彩色上采样层、第3个彩色上采样层、第4个彩色上采样层、第5个彩色上采样层、第6个彩色上采样层、第1个级联层、第2个级联层、第3个级联层组成的彩色混合模块,第1个彩色卷积块,第2个彩色卷积块,第3个彩色卷积块,第1个深度神经网络块,第2个深度神经网络块,第3个深度神经网络块,第4个深度神经网络块,由第1个深度带孔卷积块、第2个深度带孔卷积块、第3个深度带孔卷积块、第4个深度带孔卷积块、第5个深度带孔卷积块、第6个深度带孔卷积块、第7个深度带孔卷积块、第8个深度带孔卷积块、第9个深度带孔卷积块、第10个深度带孔卷积块、第1个深度上采样层、第2个深度上采样层、第3个深度上采样层、第4个深度上采样层、第5个深度上采样层、第6个深度上采样层、第4个级联层、第5个级联层、第6个级联层组成的深度混合模块,第1个深度卷积块,第2个深度卷积块,第3个深度卷积块,由第1个相加操作、第2个相加操作、第3个相加操作、第4个相加操作、第5个相加操作、第6个相加操作、第7个相加操作、第4个彩色卷积块、第5个彩色卷积块、第6个彩色卷积块、第7个彩色上采样层、第8个彩色上采样层、第9个彩色上采样层、第4个深度卷积块、第5个深度卷积块、第6个深度卷积块、第7个深度上采样层、第8个深度上采样层、第9个深度上采样层组成的彩色深度混合模块,第7个级联层,第1个混合卷积块,第2个混合卷积块,第3个混合卷积块,第1个混合上采样层;
对于RGB图像输入层,其输入端接收一幅原始输入RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始输入RGB图像的R通道分量、G通道分量和B通道分量给隐层;其中,原始输入RGB图像的宽度为W、高度为H;
对于第1个彩色神经网络块,其输入端接收RGB图像输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,其输出端输出256幅特征图,将这256幅特征图构成的集合记为PRGB1,PRGB1中的每幅特征图的宽度为高度为对于第2个彩色神经网络块,其输入端接收PRGB1中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为PRGB2,PRGB2中的每幅特征图的宽度为高度为对于第3个彩色神经网络块,其输入端接收PRGB2中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为PRGB3,PRGB3中的每幅特征图的宽度为高度为对于第4个彩色神经网络块,其输入端接收PRGB3中的所有特征图,其输出端输出2048幅特征图,将这2048幅特征图构成的集合记为PRGB4,PRGB4中的每幅特征图的宽度为高度为
对于彩色混合模块,第1个彩色带孔卷积块的输入端接收PRGB1中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB1,CRGB1中的每幅特征图的宽度为高度为第2个彩色带孔卷积块的输入端接收PRGB2中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB2,CRGB2中的每幅特征图的宽度为高度为第3个彩色带孔卷积块的输入端接收PRGB2中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CRGB3,CRGB3中的每幅特征图的宽度为高度为第4个彩色带孔卷积块的输入端接收PRGB3中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB4,CRGB4中的每幅特征图的宽度为高度为第5个彩色带孔卷积块的输入端接收PRGB3中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CRGB5,CRGB5中的每幅特征图的宽度为高度为第6个彩色带孔卷积块的输入端接收PRGB3中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为CRGB6,CRGB6中的每幅特征图的宽度为高度为第7个彩色带孔卷积块的输入端接收PRGB4中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CRGB7,CRGB7中的每幅特征图的宽度为高度为第8个彩色带孔卷积块的输入端接收PRGB4中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CRGB8,CRGB8中的每幅特征图的宽度为高度为第9个彩色带孔卷积块的输入端接收PRGB4中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为CRGB9,CRGB9中的每幅特征图的宽度为高度为第10个彩色带孔卷积块的输入端接收PRGB4中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为CRGB10,CRGB10中的每幅特征图的宽度为高度为第1个彩色上采样层的输入端接收CRGB2中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为URGB1,URGB1中的每幅特征图的宽度为高度为第2个彩色上采样层的输入端接收CRGB4中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为URGB2,URGB2中的每幅特征图的宽度为高度为第3个彩色上采样层的输入端接收CRGB5中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为URGB3,URGB3中的每幅特征图的宽度为高度为第4个彩色上采样层的输入端接收CRGB7中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为URGB4,URGB4中的每幅特征图的宽度为高度为第5个彩色上采样层的输入端接收GRGB8中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为URGB5,URGB5中的每幅特征图的宽度为高度为第6个彩色上采样层的输入端接收CRGB9中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为URGB6,URGB6中的每幅特征图的宽度为高度为第1个级联层的输入端接收CRGB1、URGB1、URGB2、URGB4中的所有特征图,其通过Concatence方式连接CRGB1、URGB1、URGB2、URGB4中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为L1,L1中的每幅特征图的宽度为高度为第2个级联层的输入端接收CRGB3、URGB3、URGB5中的所有特征图,其通过Concatence方式连接CRGB3、URGB3、URGB5中的所有特征图,其输出端输出768幅特征图,将这768幅特征图构成的集合记为L2,L2中的每幅特征图的宽度为高度为第3个级联层的输入端接收CRGB6、URGB9中的所有特征图,其通过Concatence方式连接CRGB6、URGB9中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为L3,L3中的每幅特征图的宽度为高度为
对于第1个彩色卷积块,其输入端接收L1中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为VRGB1,VRGB1中的每幅特征图的宽度为高度为对于第2个彩色卷积块,其输入端接收L2中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为VRGB2,VRGB2中的每幅特征图的宽度为高度为对于第3个彩色卷积块,其输入端接收L3中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为VRGB3,VRGB3中的每幅特征图的宽度为高度为
对于深度图像输入层,其输入端接收一幅原始输入深度图像,其输出端输出原始输入深度图像的三个通道分量给隐层;其中,原始输入深度图像为原始输入RGB图像对应的深度图像,原始输入深度图像的宽度为W、高度为H;
对于第1个深度神经网络块,其输入端接收深度图像输入层的输出端输出的三个通道分量,其输出端输出256幅特征图,将这256幅特征图构成的集合记为PD1,PD1中的每幅特征图的宽度为高度为对于第2个深度神经网络块,其输入端接收PD1中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为PD2,PD2中的每幅特征图的宽度为高度为对于第3个深度神经网络块,其输入端接收PD2中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为PD3,PD3中的每幅特征图的宽度为高度为对于第4个深度神经网络块,其输入端接收PD3中的所有特征图,其输出端输出2048幅特征图,将这2048幅特征图构成的集合记为PD4,PD4中的每幅特征图的宽度为高度为
对于深度混合模块,第1个深度带孔卷积块的输入端接收PD1中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CD1,CD1中的每幅特征图的宽度为高度为第2个深度带孔卷积块的输入端接收PD2中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CD2,CD2中的每幅特征图的宽度为高度为第3个深度带孔卷积块的输入端接收PD2中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CD3,CD3中的每幅特征图的宽度为高度为第4个深度带孔卷积块的输入端接收PD3中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CD4,CD4中的每幅特征图的宽度为高度为第5个深度带孔卷积块的输入端接收PD3中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CD5,CD5中的每幅特征图的宽度为高度为第6个深度带孔卷积块的输入端接收PD3中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为CD6,CD6中的每幅特征图的宽度为高度为第7个深度带孔卷积块的输入端接收PD4中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为CD7,CD7中的每幅特征图的宽度为高度为第8个深度带孔卷积块的输入端接收PD4中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为CD8,CD8中的每幅特征图的宽度为高度为第9个深度带孔卷积块的输入端接收PD4中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为CD9,CD9中的每幅特征图的宽度为高度为第10个深度带孔卷积块的输入端接收PD4中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为CD10,CD10中的每幅特征图的宽度为高度为第1个深度上采样层的输入端接收CD2中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为UD1,UD1中的每幅特征图的宽度为高度为第2个深度上采样层的输入端接收CD4中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为UD2,UD2中的每幅特征图的宽度为高度为第3个深度上采样层的输入端接收CD5中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为UD3,UD3中的每幅特征图的宽度为高度为第4个深度上采样层的输入端接收CD7中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为UD4,UD4中的每幅特征图的宽度为高度为第5个深度上采样层的输入端接收CD8中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为UD5,UD5中的每幅特征图的宽度为高度为第6个深度上采样层的输入端接收CD9中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为UD6,UD6中的每幅特征图的宽度为高度为第4个级联层的输入端接收CD1、UD1、UD2、UD4中的所有特征图,其通过Concatence方式连接CD1、UD1、UD2、UD4中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为L4,L4中的每幅特征图的宽度为高度为第5个级联层的输入端接收CD3、UD3、UD5中的所有特征图,其通过Concatence方式连接CD3、UD3、UD5中的所有特征图,其输出端输出768幅特征图,将这768幅特征图构成的集合记为L5,L5中的每幅特征图的宽度为高度为第3个级联层的输入端接收CD6、UD9中的所有特征图,其通过Concatence方式连接CD6、UD9中的所有特征图,其输出端输出1024幅特征图,将这1024幅特征图构成的集合记为L6,L6中的每幅特征图的宽度为高度为
对于第1个深度卷积块,其输入端接收L4中的所有特征图,其输出端输出128幅特征图,将这128幅特征图构成的集合记为VD1,VD1中的每幅特征图的宽度为高度为对于第2个深度卷积块,其输入端接收L5中的所有特征图,其输出端输出256幅特征图,将这256幅特征图构成的集合记为VD2,VD2中的每幅特征图的宽度为高度为对于第3个深度卷积块,其输入端接收L6中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为VD3,VD3中的每幅特征图的宽度为高度为
对于彩色深度混合模块,第4个彩色卷积块的输入端接收CRGB10中的所有特征图,其输出端输出512幅特征图,将这512幅特征图构成的集合记为VRGB4,VRGB4中的每幅特征图的宽度为高度为第7个彩色上采样层的输入端接收VRGB4中的所...

【专利技术属性】
技术研发人员:周武杰潘思佳林鑫杨雷景生强芳芳何成王海江
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1