【技术实现步骤摘要】
一种双流沟通和全局信息引导的显著物体图像检测方法
本专利技术涉及一种深度学习的显著物体检测方法,尤其是涉及一种双流沟通和全局信息引导的的显著物体检测方法。
技术介绍
卷积神经网络的兴起,使得其在各种各样的场景中有着越来越多的应用,显著物体检测就是其中一个重要的应用。目前,最常用的显著物体检测采用的都是利用彩色信息检测显著物体,而近年来,随着深度传感器的发展,如:MicrosoftKinect和IntelRealSense,使得获得深度信息变得越来越方便,使用彩色加深度信息来对显著物体进行检测,提高了图像像素级检测任务的精度。采用深度学习的显著物体检测方法,直接进行像素级别端到端(end-to-end)的显著物体检测,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习显著物体检测的方法一般都是编码-译码架构。编码过程通过池化层逐渐减少分辨率、增加感受野、获得更多的语义信息;译码过程逐渐 ...
【技术保护点】
1.一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于方法包括训练阶段和测试阶段两个过程;/n所述的训练阶段过程的具体步骤为:/n步骤1_1:采集Q幅原始的彩色信息图像和Q幅深度信息图像以及对应的真实显著检测图像,并构成训练集,彩色信息图像和深度信息图像构成场景图像;训练集中将第q幅原始彩色信息图像记为
【技术特征摘要】
20200424 CN 20201033265201.一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于方法包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:采集Q幅原始的彩色信息图像和Q幅深度信息图像以及对应的真实显著检测图像,并构成训练集,彩色信息图像和深度信息图像构成场景图像;训练集中将第q幅原始彩色信息图像记为将与之对应的第q幅原始深度信息图像记为将与原始彩色信息图像对应的真实显著检测图像记为
步骤1_2:构建卷积神经网络分类训练模型,卷积神经网络分类训练模型包括依次连接的输入层、隐层和输出层;
步骤1_3:将训练集中的每幅原始的场景图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的场景图像对应的四幅显著物体检测预测图并组成集合,即将第q幅原始彩色信息图像对应的显著物体检测预测图构成集合记为
步骤1_4:计算步骤1_3获得的显著物体检测预测图的集合与所有真实显著检测图像构成的集合之间的损失函数值采用交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量Wbest和最优偏置项bbest,获得训练好的卷积神经网络分类训练模型;
所述的测试阶段过程的具体步骤为:针对待检测的场景图像待检测的场景图像包括了待检测的彩色信息图像和深度信息图像,待检测的彩色信息图像的红、绿、蓝三层通道分量输入到卷积神经网络分类训练模型的彩色信息流,将待检测的深度信息图像被复制成三通道的深度通道分量输入到卷积神经网络分类训练模型的深度信息流,并利用训练好的卷积神经网络分类训练模型进行预测,得到待检测的场景图像对应的预测显著物体检测图像作为检测结果。
2.根据权利要求1所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:所述的卷积神经网络分类训练模型中,所述的卷积神经网络分类训练模型的隐层包括彩色信息流和深度信息流以及五个逆置注意力模块,彩色信息流包括五个彩色卷积块、四个彩色解码块、五个彩色注意力模块、五个彩色上采样模块;深度信息流包括五个深度卷积块、四个深度解码块、五个深度注意力模块、五个深度上采样模块;彩色信息流的输入端接收原始彩色信息图像的红、绿、蓝三层通道分量,深度信息流输入端接收原始深度信息图像的深度通道分量,并将其复制三份变成三层通道分量;
五个彩色卷积块依次连接,第一个彩色卷积块的输入端作为彩色信息流的输入端,四个彩色解码块依次连接,每相邻两个彩色解码块之间均连接有一个通道相加层,且第一个彩色解码块的输入端连接有一个通道相加层,前三个彩色卷积块的输出端均依次经各自的一个彩色注意力模块和一个彩色上采样模块后分别连接输入到后三个彩色解码块输入侧的通道相加层的输入端,后两个彩色卷积块的输出端依次经各自的一个彩色注意力模块和一个彩色上采样模块后一起连接输入到第一个彩色解码块输入侧的通道相加层的输入端;
五个深度卷积块依次连接,第一个深度卷积块的输入端作为深度信息流的输入端,四个深度解码块依次连接,每相邻两个深度解码块之间均连接有一个通道相加层,且第一个深度解码块的输入端连接有一个通道相加层,前三个深度卷积块的输出端均依次经各自的一个深度注意力模块、一个像素相加层和一个深度上采样模块后分别连接输入到后三个深度解码块输入侧的通道相加层的输入端,后两个深度卷积块的输出端依次经各自的一个深度注意力模块和一个深度上采样模块后一起连接输入到第一个深度解码块输入侧的通道相加层的输入端;同时五个彩色卷积块的输出端经各自的一个逆置注意力模块后分别输入到五个深度解码块输入侧的像素相加层的输入端;每一个深度解码块与其对应的一个彩色解码块的输出端均连接输入到一个通道相加层后输出到各自的输出层。
3.根据权利要求2所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:
五个彩色卷积块分别为彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块,四个彩色解码块分别为彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块,五个彩色注意力模块分别为彩色第1个注意力模块、彩色第2个注意力模块、彩色第3个注意力模块、彩色第4个注意力模块和彩色第5个注意力模块,五个彩色上采样模块分别为彩色第1个上采样模块、彩色第2个上采样模块、彩色第3个上采样模块、彩色第4个上采样模块和彩色第5个上采样模块;五个深度卷积块分别为深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、彩色第4个卷积块和深度第5个卷积块,四个深度解码块分别为深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块,五个深度注意力模块分别为深度第1个注意力模块、深度第2个注意力模块、深度第3个注意力模块、深度第4个注意力模块和深度第5个注意力模块,五个深度上采样模块分别为深度第1个上采样模块、深度第2个上采样模块、深度第3个上采样模块、深度第4个上采样模块和彩色第5个上采样模块;五个逆置注意力模块分别为第1个逆置注意力模块、第2个逆置注意力模块、第3个逆置注意力模块、第4个逆置注意力模块和第5个逆置注意力模块;具体网络结构为:
彩色信息流:彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块依次连接,彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块依次连接,彩色信息流的输入到彩色第1个卷积块的输入,彩色第1个卷积块的输出依次经彩色第5个注意力模块、彩色第5个上采样模块后的结果和彩色第3个解码块的输出一起再通过一个通道相加层后输入到彩色第4个解码块,彩色第2个卷积块的输出依次经彩色第4个注意力模块、彩色第4个上采样模块后的结果和彩色第2个解码块的输出一起再通过一个通道相加层后输入到彩色第3个解码块,彩色第3个卷积块的输出依次经彩色第3个注意力模块、彩色第3个上采样模块后的结果和彩色第1个解码块的输出一起再通过一个通道相加层后输入到彩色第2个解码块,彩色第4个卷积块的输出依次经彩色第2个注意力模块、彩色第2个上采样模块后的结果和彩色第5个卷积块的输出依次经彩色第1个注意力模块、彩色第1个上采样模块后的结果一起再通过一个通道相加层后输入到彩色第1个解码块;
深度信息流:深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、深度第4个卷积块和深度第5个卷积块依次连接,深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块依次连接,深度信息流的输入到深度第1个卷积块的输入,深度第1个卷积块的输出经深度第5个注意力模块后的结果和彩色第1个卷积块经第5个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第5个上采样模块,深度第5个上采样模块的输出和深度第3个解码块的输出一起再通过一个通道相加层后输入到深度第4个解码块;深度第2个卷积块的输出经深度第4个注意力模块后的结果和彩色第2个卷积块经第4个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第4个上采样模块,深度第4个上采样模块的输出和深度第2个解码块的输出一起再通过一个通道相加层后输入到深度第3个解码块;深度第3个卷积块的输出经深度第3个注意力模块后的结果和彩色第3个卷积块经第3个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第3个上采样模块,深度第3个上采样模块的输出和深度第1个解码块的输出一起再通过一个通道相加层后输入到深度第2个解码块;深度第4个卷积块的输出经深度第2个注意力模块后的结果和彩色第4个卷积块经第2个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第2个上采样模块,深度第5个卷积块的输出经深度第1个注意力模块后的结果和彩色第5个卷积块经第1个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第1个上采样模块,深度第2个上采样模块和深度第1个上采样模块的输出一起再通过一个通道相加层后输入到深度第1个解码块;
深度第4个解码块和彩色第4个解码块的输出通过一个像素相加层后输入到第一输出层,深度第3个解码块和彩色第3个解码块的输出通过一个像素相加层后输入到第二输出层,深度第2个解码块和彩色第2个解码块的输出通过一个像素相加层后输入到第三输出层,深度第1个解码块和彩色第1个解码块的输出通过一个像素相加层后输入到第四输出层。
4.根据权利要求3所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:
所述的彩色第1个卷积块由依次连接的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第三卷积层组成,输出64幅特征图集合Pr1;
所述的彩色第2个卷积块由依次连接的第三激活层、第四最大池化层、第四卷积层、第四激活层、第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第十一卷积层、第十一激活层、第十二卷积层、第十二激活层以及用于沟通通道用的第一跳连卷积层、第一跳连层、第二跳连层组成,第五卷积层、第八卷积层、第十一卷积层的卷积核为多尺度3×3卷积,输出256幅特征图集合Pr2;
所述的彩色第3个卷积块由依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层、第十五卷积层、第十五激活层、第十六卷积层、第十六激活层、第十七卷积层、第十七激活层、第十八卷积层、第十八激活层、第十九卷积层、第十九激活层、第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层、第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层以及用于沟通通道用的第二卷积跳连层、第三跳连层、第四跳连层和第五跳连层组成,第十四卷积层、第十七卷积层、第二十卷积层、第二十三卷积层的卷积核为多尺度3×3卷积,输出512幅特征图集合Pr3;
所述的彩色第4个卷积块由依次连接的第二十五卷积层、第二十五激活层、第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层、第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层、第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层、第三十二卷积层、第三十二激活层、第三十三卷积层、第三十三激活层、第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层、第三十六卷积层、第三十六激活层、第三十七卷积层、第三十七激活层、第三十八卷积层、第三十八激活层、第三十九卷积层、第三十九激活层、第四十卷积层、第四十激活层、第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层以及用于沟通通道用的第三跳连卷积层、第六跳连层、第七跳连层、第八跳连层、第九跳连层、第十跳连层组成,第二十六卷积层、第二十九卷积层、第三十二卷积层、第三十五卷积层、第三十八卷积层、第...
【专利技术属性】
技术研发人员:周武杰,朱赟,雷景生,郭翔,强芳芳,王海江,何成,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。