一种用于实时街道场景分割的方法技术

技术编号:26479358 阅读:42 留言:0更新日期:2020-11-25 19:24
本发明专利技术公开了一种用于实时街道场景分割的方法,涉及聚合架构网络模型以及多辅助损失训练方法。该用于实时街道场景分割的方法包括以下步骤:S1、获取已知标签的街道场景图片;S2、建立聚合架构网络模型;S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型;S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。本发明专利技术设计了新的聚合架构网络模型来获取更多的语义信息,同时保留特征空间信息,结构更加简单有效,相比于现有技术在相同的条件下可有效提升帧数和mIoU值,可快速高效地实现实时街道场景分割。

【技术实现步骤摘要】
一种用于实时街道场景分割的方法
本专利技术归属于计算机视觉领域,具体是一种用于实时街道场景分割的方法,涉及聚合架构网络模型以及多辅助损失训练方法。
技术介绍
街道场景下的实时语义分割,是一种追求高分割准确度和分割速度的语义分割任务。其目标是在保证实时的情况下,解析城市复杂街道场景的构成元素,包括行车道、行人、车辆、建筑、交通信号灯、人行道等等。该任务在自动驾驶领域具有极大的应用潜力。深度学习技术在图像语义分割的领域证明了其出色的高精度分割能力,但是,以往的方法更关注提高精度,而忽视了模型的分割速度,具有巨大计算成本的模型很难满足自动驾驶等应用的实时需求。为了解决这个问题,一些研究人员提出了轻量级的卷积网络结构,以探索如何在确保一定程度的准确性的同时减少网络计算的数量。这些方法可以分为三种主要架构:(1)扩张架构,用扩张卷积代替传统的下采样操作,以生成高分辨率和语义丰富的特征,如“Yu,F.,Koltun,V.:Multi-scalecontextaggregationbydilatedconvolutions.In:4thInterna本文档来自技高网...

【技术保护点】
1.一种用于实时街道场景分割的方法,其特征在于,包括以下步骤:/nS1、获取已知标签的街道场景图片;/nS2、建立聚合架构网络模型:采用残差神经网络ResNet-18作为骨干网络,依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块,在第一Block模块的输出端连接第一上采样模块,在第二Block模块的输出端连接第二上采样模块,在第三Block模块的输出端连接第三上采样模块,在第四Block模块的输出端连接第四上采样模块,在金字塔池化模块的输出端连接第五上采样模块;将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块...

【技术特征摘要】
1.一种用于实时街道场景分割的方法,其特征在于,包括以下步骤:
S1、获取已知标签的街道场景图片;
S2、建立聚合架构网络模型:采用残差神经网络ResNet-18作为骨干网络,依次串联第一Block模块、第二Block模块、第三Block模块、第四Block模块和金字塔池化模块,在第一Block模块的输出端连接第一上采样模块,在第二Block模块的输出端连接第二上采样模块,在第三Block模块的输出端连接第三上采样模块,在第四Block模块的输出端连接第四上采样模块,在金字塔池化模块的输出端连接第五上采样模块;将第一上采样模块、第二上采样模块、第三上采样模块、第四上采样模块和第五上采样模块的输出端分别与特征求和模块的输入端相连;将特征求和模块的输出端依次连接一个激活函数ReLU、Final模块和seg分割处理模块;将seg分割处理模块的输出端作为聚合架构网络模型的输出端;
S3、基于已知标签的街道场景图片采用多辅助损失训练方法对聚合架构网络模型进行训练,得到训练后的聚合架构网络模型:
S3-1、将骨干网络的学习率设置为0.002,将其余模块的初始学习率设置为0.02;
S3-2、将已知标签的街道场景图片输入聚合架构网络模型,分别通过深度学习框架Pytorch中的交叉熵损失函数CrossEntropyLoss获取第三Block模块输出对应的第一辅助损失、第四Block模块输出对应的第二辅助损失、金字塔池化模块输出对应的第三辅助损失和seg分割处理模块中的损失数据;
S3-3、将第一辅助损失、第二辅助损失、第三辅助损失与seg分割处理模块中的损失数据之和作为总的损失;
S3-4、基于总的损失进行反向传播,更新聚合架构网络模型中每个卷积层的参数;
S3-5、根据公式:



更新所有模块的学习率lr;其中lrmin为最小学习率,值为1×10-8;lrmax为所有模块的初始学习率;Tcur为当前训练轮次;T为总训练次数;π为常数;
S3-6、根据公式:



获取当前聚合架构网络模型的评价值mIoU;其中k+1为数据集类别的总数;pij表示第i类被识别为第j类的像素总数;pji表示第j类被识别为第i类的像素总数;pii表示识别正确的像素总数;
S3-7、判断当前聚合架构网络模型的评价值mIoU是否大于阈值,若是则输出当前聚合架构网络模型,得到训练后的聚合架构网络模型,进入步骤S4;否则返回步骤S3-2;
S4、采用训练后的聚合架构网络模型对街道场景的实时图像进行分割,完成实时街道场景分割。


2.根据权利要求1所述的用于实时街道场景分割的方法,其特征在于,所述步骤S2中第一Block模块、第二Block模块、第三Block模块、第四Block模块的输出特征尺寸分别为聚合架构网络模型输入图片尺寸的1/4、1/8、1/16和1/32;金字塔池化模块的大小分别为8、4和2,金字塔池化模块的输出特征尺寸为聚合架构网络模型输入图片尺寸的1/32;每个上采样模块均包括相互连接的一个3×3的卷积层和一个批处理BN单元;每个上采样模块的输出特征尺寸均为聚合架构网络模型输入图片尺寸的1/4,通道数均为128;Final模块包括依次连接的一个3×3的卷积层、一个批处理BN单元和一个激活函数ReLU。


3.根据权利要求1所述的用于实时街道场景分割的方法,其特征在于,所述seg分割处理模块包括依次连接的一个3×3的卷积层、一个批处理BN单元、一个激活函数ReLU、一个随机失活Dropout和一个1×1卷积层;其中随机失活Dropout对每个特征点的随机失活概率为...

【专利技术属性】
技术研发人员:邵杰曹坤涛黄茜蒋春林
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1