【技术实现步骤摘要】
一种基于卷积神经网络的实时道路场景分割方法
本专利技术涉及一种深度学习的道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的实时道路场景分割方法。
技术介绍
随着自动驾驶技术、计算机视觉和自然语言处理技术的不断发展,无人驾驶汽车将会广泛地出现在人们的生活当中。无人驾驶汽车在行驶过程中需要实时精确地理解周围的场景并对突发事件快速地做出决策,避免交通事故。因此,高效精确的道路场景语义分割正成为计算机视觉领域研究的热点之一。语义分割任务是图像理解的一个基础任务,也是计算机视觉领域中有待解决的一个重要任务。在过去的几年里,深度学习技术,尤其是卷积神经网络,在语义分割任务上显示出了巨大的潜力。对于夜间道路场景,不良的光照条件给夜间道路场景理解带来了巨大的挑战,热力图可以很好地进行信息的补充,作为输入信息。通常,语义分割任务使用的全卷积神经网络架构可以分为两类:编码器-解码器结构和膨胀卷积结构。编码器-解码器结构首先使用编码器提取图像特征,然后使用解码器对空间分辨率进行恢复;膨胀卷积结构为了减少编码部分空间信息的丢失,使用扩张 ...
【技术保护点】
1.一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;/n所述的训练阶段过程的具体步骤为:/n步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为
【技术特征摘要】
1.一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为将训练集中的第q幅原始的道路场景热力图像记为将对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将处理成的9幅独热编码图像构成的集合记为其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示的宽度,H表示的高度,与为从同一道路场景获取,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为高度为第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为高度为对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为高度为第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为高度为第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为高度为对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为高度为第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为高度为第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为高度为对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为高度为第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为高度为
对于浅层次特征提取模块,其仅包括一个浅层结构块,浅层结构块的输入端接收DAdd,1中的所有特征图,其输出端输出160幅特征图,将这160幅特征图构成的集合记为S,S中的每幅特征图的宽度为高度为
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为高度为
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为高度为对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为高度为
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为高度为对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为高度为第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为高度为第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为高度为第二上采样层的输入端接收H3中的所有特征图,第二上采样...
【专利技术属性】
技术研发人员:周武杰,林鑫杨,潘思佳,强芳芳,雷景生,周扬,邱微微,
申请(专利权)人:浙江科技学院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。