一种基于卷积神经网络的道路场景语义分割方法技术

技术编号:20867457 阅读:16 留言:0更新日期:2019-04-17 09:32
本发明专利技术公开了一种基于卷积神经网络的道路场景语义分割方法,其先构建卷积神经网络,包括输入层、隐层和输出层,隐层由13个神经网络块、7个上采样层、8个级联层组成;然后将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;接着通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到卷积神经网络分类训练模型的最优权值矢量和最优偏置项;将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中进行预测,得到对应的预测语义分割图像;优点是语义分割精度高。

【技术实现步骤摘要】
一种基于卷积神经网络的道路场景语义分割方法
本专利技术涉及一种道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。
技术介绍
近年来,具有执行计算密集型任务能力的机器的进步使得研究人员能够更深入地挖掘神经网络。卷积神经网络在图像的分类、定位以及场景理解等方面取得了最近的成功。目前,由于增强现实和自动驾驶车辆等任务的激增,因此许多研究人员将注意力转移到场景理解上,其中一个主要步骤就是语义分割,即对所给定的图像中的每一个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。当然,目标检测方法可以帮助绘制出某些确定实体的边框,但人类对场景理解能以像素级的精细程度对每一个实体进行检测并标记精确的边界。现在已经开始发展自动驾驶汽车和智能机器人,这些都需要深入理解周围环境,因此精确分割实体变得越来越重要。深度学习在语义分割、计算机视觉、语音识别、跟踪方面都有极广泛的应用,其极强的高效性也使得它在实时应用等各方面具有巨大的潜力。现如今获取特征的方法主要可以分为两类:使用手动特征的传统方法和针对问题自动学习的深度学习方法,前者通常为了适应新的数据集需要专家相关经验和时间对特征进行调整;后者在物体检测和图像分类等方面的成功鼓舞着研究人员探索此类网络对像素级标记,如语义分割方面的能力。因此,深度学习语义分割方法的研究更高效实用。经典的语义分割方法有全连接网络(FullConnectedNetwork,FCN),其能够做到端到端,像素点对像素点的连接,而且相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题,其是最先进的语义分割方法之一。但它存在很多缺点,首先是训练比较麻烦,需要训练三次才能够得到FCN-8s;其次是对图像的细节不够敏感,这是因为在解码过程,也就是恢复原图像大小的过程中,输入上采样层的labelmap(标签图片)太稀疏,而且上采样过程就是一个简单的deconvolution(反卷积),因此得到的分割结果还是不精细。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其语义分割精度高。本专利技术解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为高度为对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为高度为Z2中的每幅特征图的宽度为高度为对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{I

【技术特征摘要】
1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为高度为对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为高度为Z2中的每幅特征图的宽度为高度为对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为高度为Z3中的每幅特征图的宽度为高度为对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为高度为Z4中的每幅特征图的宽度为高度为对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为高度为对于第1个上采样层,第1个上采样层的输入端接收C23中的所有特征图,第1个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y1;其中,Y1中的每幅特征图的宽度为高度为对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为高度为对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为...

【专利技术属性】
技术研发人员:周武杰吕思嘉袁建中向坚王海江何成
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1