当前位置: 首页 > 专利查询>福州大学专利>正文

基于深监督的实时语义分割方法技术

技术编号:32886105 阅读:13 留言:0更新日期:2022-04-02 12:21
本发明专利技术提出基于深监督的实时语义分割方法,包括以下步骤;步骤S1、针对特定的应用场景采集用于深监督的场景图像数据,构建场景图像数据库;步骤S2、对数据库中的场景图像进行像素级别标注,导出PASCAL VOC格式的标注文件,使之符合语义分割任务训练要求;步骤S3、构建基于深监督的实时语义分割网络CFSegNet;步骤S4、利用已标注的数据集对CFSegNet神经网络模型进行训练;步骤S5、对应用场景中采集到的图像数据进行预处理,然后输入到CFSegNet神经网络模型,得到图像语义分割结果;本发明专利技术准确率高,时效性好,对设备计算性能要求不高,适合部署到性能受限的终端设备中。署到性能受限的终端设备中。署到性能受限的终端设备中。

【技术实现步骤摘要】
基于深监督的实时语义分割方法


[0001]本专利技术涉及模式识别与计算机视觉
,尤其是基于深监督的实时语义分割方法。

技术介绍

[0002]近几年,计算机视觉相关技术出现在越来越多的领域中,其中包括自动驾驶,医学图像分割等,可以说计算机视觉正在引领一个新的研究热潮。计算机视觉类似于生物视觉系统,它利用计算机等硬件设备进行图片及视频的处理,得到场景信息,从而帮助人们做出决定。
[0003]计算机视觉的主要任务分为物体的定位和检测,即需要对物体进行位置标记并且识别其种类。
[0004]通常我们只对图像中的某些物体或者区域感兴趣,如何把感兴趣的部分从图片中区分出来就需要进行图像分割。图像分割就是按照一定的规则(比如物体边缘、像素值边界)进行区域划分,使划分出来的同一区域的特征相似,不同区域之间的特征不同。简单的说,就是通过图像分割可以把一张图片划分为具有不同意义的区域,其中具有重要意义的区域被称为目标或者前景,其他区域则被称为背景,就可以把具有重要意义的区域从背景中区分出来,进一步对该区域进行分析,从而对整张图片有更清晰的理解。图像语义分割需要对不同物体按照其边界进行区域划分,并且对每个区域进行像素级别的种类划分。在自动驾驶等一些场景中,语义分割模型被部署到边缘设备中,此时便要求模型在保持高性能的前提下,还能以较快的速度进行推理,如何在速度和性能两个指标上取得一个良好的折中是一个极具挑战性的问题。

技术实现思路

[0005]本专利技术提出基于深监督的实时语义分割方法,准确率高,时效性好,对设备计算性能要求不高,适合部署到性能受限的终端设备中。
[0006]基于深监督的实时语义分割方法,包括以下步骤;
[0007]步骤S1、针对特定的应用场景采集用于深监督的场景图像数据,构建场景图像数据库;
[0008]步骤S2、对数据库中的场景图像进行像素级别标注,导出PASCALVOC格式的标注文件,使之符合语义分割任务训练要求;
[0009]步骤S3、构建基于深监督的实时语义分割网络CFSegNet;
[0010]步骤S4、利用已标注的数据集对CFSegNet神经网络模型进行训练;
[0011]步骤S5、对应用场景中采集到的图像数据进行预处理,然后输入到CFSegNet神经网络模型,得到图像语义分割结果。
[0012]在所述步骤S1中具体包括以下步骤:
[0013]步骤S11:分析应用场景中各种因素对图像语义分割结果的影响,所述因素包括天
气或光照;
[0014]步骤S12:根据步骤S11中的分析结果,采用多图像采样的方法克服不利影响,所述多图像采样的方法包括尽可能多地拍摄采集应用场景图像,以覆盖有概率出现的各种场景;
[0015]步骤S13:整理采集到的图像,剔除掉因重复、错误因素而不适用于训练任务中的图像,得到对应场景图像数据库。
[0016]所述步骤S2中具体包括以下步骤;
[0017]步骤S21:根据应用需要,结合采集到的图像信息,分析应用场景下所需要划分的语义类别;
[0018]步骤S22:下载并安装图像标注软件labelme,根据步骤S21得出的语义类别配置labelme;
[0019]步骤S23:利用labelme图像标注软件框出步骤S1中得到的每张图像的类别边缘,将标注信息保存到与每张图像同名的json文件中;
[0020]步骤S24:利用labelme图像标注软件中的labelme2voc脚本将步骤S23生成的json文件转换成PASCALVOC格式,以符合语义分割任务训练要求。
[0021]步骤S3具体包括以下步骤:
[0022]步骤S31:采用ResNet

18作为CFSegNet的编码器,其中ResNet

18的瓶颈层对输入图像做4倍下采样,除第一阶段外,ResNet

18在后续的三个阶段中均对图像进行2倍下采样;
[0023]步骤S32:ResNet

18在第一到第三阶段中,通过密集连接保存下采样阶段的表述,并引入深监督模块对编码器在第二到第四阶段输出的表述进行监督,减少编码阶段空间信息的丢失;
[0024]步骤S33:将编码器第四阶段的输出结果输入到金字塔池化模块PPM中,以得到具备丰富多尺度信息的表述;
[0025]步骤S34:将步骤S33得到的表述输入到级联的上采样路径中,结合步骤32的密集连接,利用通道融合模块CFM对表述进行共计3次的2倍上采样,得到融合语义信息和空间信息的表述;
[0026]步骤S35:将步骤S34得到的表述通过双线性插值算法进行8倍上采样,并通过一个1
×
1卷积输出预测结果。
[0027]步骤S4具体包括以下步骤:
[0028]步骤S41:对步骤S3提出的模型进行训练,并设定初始参数如下:
[0029]初始学习率,即

learning rate:0.01;
[0030]权值衰减,即

weight decay:0.0005;
[0031]动量,即

momentum:0.9;
[0032]训练阶段采用多项式权值衰减作为学习率衰减策略,其中最小的学习率设置为0.0001,衰减因子设置为0.9,而批大小根据应用场景中采集到的图像大小以及训练服务器显存而定;
[0033]步骤S42:模型最终损失函数为:
[0034][0035]其中Loss
final
,Loss
main
,Loss
aux
分别代表模型的最终损失,主体损失和辅助损失,其中α为辅助损失的权重设置为0.4,K是深监督模块的数量设置为3,s为深监督模块序号;损失函数采用交叉信息熵,公式如下所示;
[0036][0037]其中Loss代表损失值,M表示语义类别的数量,c代表像素点序号,y
c
是一个one

hot向量,只取两个值0和1;如果类别是与样本类别一致,则取1,否则取0,p
c
表示预测的像素属于类别c的概率;
[0038]步骤S43:训练阶段采用随机梯度下降方法作为优化器,计算卷积神经网络更新后的权重值、偏置值;
[0039]步骤S44:对部分训练样本进行随机仿射变换,并对标签文件做出相应变换,然后加入到模型的训练样本中参与训练;
[0040]步骤S45:对部分训练样本进行随机位置裁剪,并对标签文件相应位置做裁剪,然后加入到模型的训练样本中参与训练;
[0041]步骤S46:迭代到160000次后停止训练,保存训练好的模型。
[0042]步骤S5具体包括以下步骤:
[0043]步骤S51:在应用场景中通过摄像头采集图像数据作为输入;
[0044]步骤S52:将输入图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
卷积输出预测结果。5.根据权利要求1所述的基于深监督的实时语义分割方法,其特征在于:步骤S4具体包括以下步骤:步骤S41:对步骤S3提出的模型进行训练,并设定初始参数如下:初始学习率,即

learning rate:0.01;权值衰减,即

weight decay:0.0005;动量,即

momentum:0.9;训练阶段采用多项式权值衰减作为学习率衰减策略,其中最小的学习率设置为0.0001,衰减因子设置为0.9,而批大小根据应用场景中采集到的图像大小以及训练服务器显存而定;步骤S42:模型最终损失函数为:其中Loss
final
,Loss
main
,Loss
aux
分别代表模型的最终损失,主体损失和辅助损失,其中α为辅助损失的权重设置为0.4,K是深监督模块的数量设置为3,s为深监督模块序号;损失函数采用交叉信息熵,公式如下所示;其中Loss代表损失值,M表示语义类别的数量,c代表像素点序号,y

【专利技术属性】
技术研发人员:柯逍蒋培龙曾淦雄
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1