基于多尺度带孔卷积神经网络的道路场景语义分割方法技术

技术编号:20655338 阅读:24 留言:0更新日期:2019-03-23 06:57
本发明专利技术公开了一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其在训练阶段,构建多尺度带孔卷积神经网络,其隐层包括9个神经网络块、5个级联层、6个上采样块;使用原始的道路场景图像输入到多尺度带孔卷积神经网络中进行训练,得到对应的12幅语义分割预测图;再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,获得多尺度带孔卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待分割的道路场景图像输入到多尺度带孔卷积神经网络分类训练模型中,得到预测语义分割图像;优点是提高了道路场景图像的语义分割效率和准确度。

【技术实现步骤摘要】
基于多尺度带孔卷积神经网络的道路场景语义分割方法
本专利技术涉及一种深度学习的语义分割方法,尤其是涉及一种基于多尺度带孔卷积神经网络的道路场景语义分割方法。
技术介绍
随着智能交通行业的快速发展,道路场景理解在辅助驾驶和无人驾驶系统的智能交通中得到了越来越广泛的应用。自动驾驶中最具挑战的任务之一是道路场景理解,包括计算机视觉任务下的车道检测和语义分割。车道检测帮助指导车辆,语义分割提供更多关于周围环境目标的细节位置。语义分割是计算机视觉的一个重要方向,其本质是对图像进行像素级别的分类,应用在道路场景理解中就是将图像中包括道路、汽车、行人等等类别的目标分割出来。目前,语义分割的方法分为两种,一种是以传统机器学习方式进行的,以归一化分割(Normalizedcut,N-cut)为代表,其核心思想是根据像素间的权重关系给出阈值将图像划分;另一种是以深度学习方式进行的,以全卷积神经网络为代表,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集中得到相较于传统机器学习方式更好的分割效果。得益于强大的学习表示能力,卷积神经网络使语义分割研究方向有了新进展,但依然很难处理外形较复杂物体的分割。传统的卷积神经网络,任意层接收上层的数据作输入,再作卷积并加激活传给下一层,是以单一直线型流程执行的。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些部分具体的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好,有利于提高分割效果。现有的道路场景语义分割方法大多采用深度学习的方法,其利用卷积层与池化层相结合的方式,然而池化层通过缩小分辨率来获取较大的感知域,损失分辨率从而会导致得到的图像的特征信息减少,最终导致还原的边缘信息比较粗糙,分割精度低。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其能够充分考虑到道路场景图像多种特征对场景理解的影响,利用多尺度与带孔卷积相结合的方式,以扩大感知域,得到更多图像的特征信息,从而提高了道路场景图像的语义分割效率和准确度。本专利技术解决上述技术问题所采用的技术方案为:一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建多尺度带孔卷积神经网络:多尺度带孔卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层;对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于第1个神经网络块,其由依次设置的卷积层、批规范化层、激活层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P1中的每幅特征图的宽度为W、高度为H;对于第2个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P2中的每幅特征图的宽度为高度为对于第3个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P3中的每幅特征图的宽度为高度为对于第4个神经网络块,其由依次设置的最大池化层、丢弃层、卷积层、批规范化层、激活层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,P4中的每幅特征图的宽度为高度为对于第5个神经网络块,其由依次设置的最大池化层、丢弃层、上采样层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,上采样层的尺寸为2,P5中的每幅特征图的宽度为高度为对于第1个级联层,第1个级联层的输入端接收P4中的所有特征图和P5中的所有特征图,第1个级联层通过Concatence方式连接P4和P5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为1024,U1中的每幅特征图的宽度为高度为对于第6个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第6个神经网络块的输入端接收U1中的所有特征图,第6个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P6;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认本文档来自技高网
...

【技术保护点】
1.一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{I

【技术特征摘要】
1.一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建多尺度带孔卷积神经网络:多尺度带孔卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层;对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于第1个神经网络块,其由依次设置的卷积层、批规范化层、激活层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P1中的每幅特征图的宽度为W、高度为H;对于第2个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P2中的每幅特征图的宽度为高度为对于第3个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P3中的每幅特征图的宽度为高度为对于第4个神经网络块,其由依次设置的最大池化层、丢弃层、卷积层、批规范化层、激活层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,P4中的每幅特征图的宽度为高度为对于第5个神经网络块,其由依次设置的最大池化层、丢弃层、上采样层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,上采样层的尺寸为2,P5中的每幅特征图的宽度为高度为对于第1个级联层,第1个级联层的输入端接收P4中的所有特征图和P5中的所有特征图,第1个级联层通过Concatence方式连接P4和P5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为1024,U1中的每幅特征图的宽度为高度为对于第6个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第6个神经网络块的输入端接收U1中的所有特征图,第6个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P6;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P6中的每幅特征图的宽度为高度为对于第1个上采样块,其由上采样层组成;第1个上采样块的输入端接收P6中的所有特征图,第1个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C1;其中,上采样层的尺寸为2,C1中的每幅特征图的宽度为高度为对于第2个级联层,第2个级联层的输入端接收P3中的所有特征图和C1中的所有特征图,第2个级联层通过Concatence方式连接P3和C1得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为768,U2中的每幅特征图的宽度为高度为对于第7个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第7个...

【专利技术属性】
技术研发人员:周武杰顾鹏笠潘婷吕思嘉钱亚冠向坚
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1