【技术实现步骤摘要】
一种基于编解码结构的多模态显著性对象检测方法
本专利技术属于计算机视觉
,尤其针对图像显著性对象检测任务,具体涉及一种基于编解码结构的,联合彩色图像与深度图像的多模态显著性对象检测算法。
技术介绍
计算机视觉技术是人工智能领域的重要分支,随着神经网络、深度学习的快速发展,计算机视觉领域的诸多难题,例如:图像分类、目标检测、图像分割任务,取得了巨大进展,算法的准确性、实时性得到大幅增强。目前,计算机视觉技术已广泛应用于实际生产生活中,尤其是安防监控领域、支付领域、智能制造领域,推动社会生产降本提效,提高公民生活水平。基于深度学习的图像分割,是计算机视觉的关键技术,显著性对象检测为图像分割的子问题之一。显著性对象检测是由人类的注意力机制演变而来,目的在于识别出图像或视频数据中较为突出的物体,广泛应用于智能手机、安防监控、图像处理领域中。现有的显著性对象检测算法主要基于深度学习技术,可分为单物体、多物体检测,大多数被提出的算法都以彩色图像为输入。近年来,随着激光雷达、深度相机等硬件设备的发展,使智能手机、汽车等设备拥 ...
【技术保护点】
1.一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤如下:/n步骤1、根据应用的真实环境选择合适的数据集,确定数据的格式、分布、数量,划分训练集和测试集;/n步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数;/n步骤3、设置参数,选择优化器,训练模型,得到模型参数;/n步骤4、使用测试集对训练后的模型进行测试。/n
【技术特征摘要】
1.一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤如下:
步骤1、根据应用的真实环境选择合适的数据集,确定数据的格式、分布、数量,划分训练集和测试集;
步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数;
步骤3、设置参数,选择优化器,训练模型,得到模型参数;
步骤4、使用测试集对训练后的模型进行测试。
2.根据权利要求1所述的一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤1选择合适的数据集,并进行预处理,划分训练集和测试集,具体操作如下;
彩色图像采用RGB颜色空间的格式,深度图像采用0-255灰度值表达深度信息的格式,数据集中深度图像的像素值含义要与深度感知设备保持一致;对选取的数据采用水平镜像翻转、旋转90°、旋转180°、旋转270°,从而实现五倍的数据集扩增,并将数据集中深度图像的像素值进行线性变换,像素值0代表深度为0,像素值255代表深度为255。
3.根据权利要求2所述的一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数,具体操作如下;
网络模型分为显著性对象预测分支和对比度特征学习分支;
显著性对象预测分支以彩色图像为输入的,基于编解码结构,用于完成显著性对象预测任务;编码部分使用ResNet-34网络,解码部分为对比度引导的多模态特征混合解码器,所述的对比度引导的多模态特征混合解码器对彩色特征和对比度特征进行充分融合,首先使用拼接操作,将对比度特征中的信息补充到显著性对象预测过程中,然后再次使用彩色特征与对比度特征生成特征滤波器,对颜色特征进行增强;在解码部分每个阶段均有损失函数进行监督,损失函数如公式(1)所示,采用最后一个阶段的输出作为最终的显著性对象预测结果;
显著性对象预测分支的损失函数:
Lrgb=YlogP+(1-Y)log(1-P)(1)
该损失函数为交叉熵损失函数,Y代表显著性结果真值,P代表算法预测的结果;
对比度特征学习分支以深度图像为输入,采用编解码结构,用于从深度图像中学习对...
【专利技术属性】
技术研发人员:周晓飞,颜成钢,潘亮,贺熠凡,孙垚棋,张继勇,张勇东,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。