【技术实现步骤摘要】
一种三输入的RGB-D显著性目标检测算法
本专利技术涉及计算机视觉
,尤其是涉及一种三输入的RGB-D显著性目标检测算法。
技术介绍
显著性目标检测是图像处理的一个分支,也是计算机视觉的一个领域。从广义上说,计算机视觉就是赋予机器自然视觉能力的学科。自然视觉能力就是指生物视觉系统体现的视觉能力。实际上,计算机视觉本质上就是研究视觉感知问题。核心问题就是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。近几十年来,计算机视觉一直是人们越来越感兴趣和严格研究的课题。计算机视觉也越来越善于从图像中识别模式。甚至在各个领域都发挥了巨大作用,随着人工智能与计算机视觉技术的惊人成就在不同行业越来越普遍,计算机视觉的未来似乎充满了希望和难以想象的结果。而本文涉及到的显著性目标检测就是其中的一个分类,但也发挥着巨大的作用。人类的大脑和视觉系统能够在一个场景中快速定位区域,从背景中脱颖而出。显著性目标检测的目的是模拟人类视觉系统,检测最吸引人视觉注意的像素或区域。也就是识别视觉上感兴趣的、符 ...
【技术保护点】
1.一种基于三输入的RGB-D显著性目标检测算法,其特征在于,包括以下步骤:/n选取Q幅彩色真实目标图像和相对应的深度图像,彩色深度图像,以及每幅彩色真实目标图像对应的显著性图像,并构成训练集;/n构建卷积神经网络;/n将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像,输入到Res2Net50中进行预训练;/n模型一共有四个输出,每个输出都进行计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,采用带权重的交叉熵损失函数获得,四个输出 ...
【技术特征摘要】
1.一种基于三输入的RGB-D显著性目标检测算法,其特征在于,包括以下步骤:
选取Q幅彩色真实目标图像和相对应的深度图像,彩色深度图像,以及每幅彩色真实目标图像对应的显著性图像,并构成训练集;
构建卷积神经网络;
将训练集中的每幅原始的彩色真实目标图像转换尺寸变为224×224作为原始RGB输入图像,输入到Res2Net50中进行预训练;
模型一共有四个输出,每个输出都进行计算训练集中的每幅原始的彩色真实目标图像对应的显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的对应尺寸大小的编码图像构成的集合之间的损失函数值,采用带权重的交叉熵损失函数获得,四个输出各有一个损失结果;最后总损失为四个输出损失相加;
重复进行预训练和损失结果的计算,得到卷积神经网络分类训练模型,在损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项。
2.根据权利要求1所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述卷积神经网络包括输入层、隐层和输出层;所述输入层包括RGBD图像输入层、深度图像输入层和彩色图像输入层;所述输出层包括第1个输出层、第2个输出层、第3个输出层和第4个输出层;所述隐层包含第1个融合模块、第2个融合模块、第3个融合模块和第4个融合模块;所述输入层输入的RGBD图像、深度图像和彩色图像分别通过对应的隐层进行处理,并从输出层输出。
3.根据权利要求2所述的基于三输入的RGB-D显著性目标检测算法,其特征在于,所述第1个融合模块包括:第1个拼接操作单元、第1个拼接卷积层、第1个细化卷积层、第1混合卷积层,第5个相乘操作单元、第1个融合扩张卷积层、第4个相加操作单元和第1个输出卷积层;
所述第1个拼接操作单元的输出输入到所述第1个拼接卷积层,所述第1个拼接卷积层和所述第1个细化卷积层输入到所述第5个相乘操作单元,所述第5个相乘操作单元输出信号输入到所述第1个融合扩张卷积层,经过所述第1个融合扩张卷积层的信号输入到所述第4个相加操作单元,所述第1个混合卷积层的输出信号输入到所述第4个相加操作单元,所述第4个相加操作单元的输出信号...
【专利技术属性】
技术研发人员:周武杰,潘思佳,林鑫杨,甘兴利,雷景生,强芳芳,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。