基于双路深度神经网络的无人驾驶场景实时语义分割方法技术

技术编号:26066890 阅读:24 留言:0更新日期:2020-10-28 16:39
本发明专利技术公开了一种基于双路深度神经网络的无人驾驶场景实时语义分割方法。本发明专利技术步骤如下:步骤1、以残差网络ResNet‑18为基础网络,分流出空间信息分支和上下文信息分支;步骤2、对上下文信息分支的不同阶段输出使用注意力精炼模块进行优化;步骤3、对空间信息分支和上下文信息分支的输出使用特征融合模块进行多尺度融合,用于网络最终输出;步骤4、在上下文信息分支中添加两个辅助损失函数,与主损失函数共同监督训练。本发明专利技术提高了语义分割对速度和精度的兼得性,从而实现一个应用于无人驾驶的高精度实时语义分割网络。

【技术实现步骤摘要】
基于双路深度神经网络的无人驾驶场景实时语义分割方法
本专利技术属于场景分割
,具体涉及一种基于双路深度神经网络的无人驾驶场景实时语义分割方法。
技术介绍
计算机视觉与深度学习联系紧密,其基础任务之一的图像语义分割在传统图像分割的基础上结合了目标检测,目的是捕获图像中的所有像素的语义标记,从而达到以像素为单位的分割效果,可应用于无人驾驶、地质简测、人脸识别、医学影像分析等任务。在无人驾驶的道路检测与路线规划任务中,需要利用语义分割技术获取车辆后续驾驶的可通行区域,以此保证安全驾驶的前提。无人驾驶中进行语义分割的图像分辨率高,对推理速度有很高的要求,对于此类应用程序,如何维持高效推理速度和高精确度并存是一个关键问题。很多方法会采取损失分割性能换取快速处理速度的方式,实现一个高精度的实时语义分割算法是关键点。目前,仍普遍存在于语义分割中尤其是实时语义分割中亟待解决的主要问题如下:(1)分割精度的问题:由于追求处理速度,大多数网络无可奈何之下只能舍弃对高精度的把握,导致实时语义分割网络的分割精度普遍不如非实时语义分割网络,尤其是在细小物体的分割上,轮廓的定位变得更加艰难;(2)计算机资源的问题:对高分辨率图像的高精度分割对计算机资源要求极高,运用轻量级网络的效果普遍更为逊色,这就要求足够的计算机资源,比如GPU。而足够的计算机资源又与无人驾驶这类移动应用场景相矛盾,造成了道路场景语义分割的现实实现更加困难;(3)数据问题:语义分割的数据集要求相比目标检测等更加繁杂,不仅仅是标注出目标物体即可,而是需要识别出所有语义不同的类别,是像素级的标注,就算是现在最流行丰富的数据集之一Cityscapes也有许多未被标注的物体类别针对以上的部分问题,各类方法层出不穷。在语义分割任务中,空间信息和上下文语义信息缺一不可,空间信息对应像素的位置,对语义分割的物体边界准确性很重要;上下文语义信息对应像素的分类,对像素所属类别的判别很重要。但是在卷积神经网络中,这两个需求之间存在一定的矛盾。在实时语义分割的任务中,为了提高推理速率,各种方法层出不穷,有的缩小输入图像的尺寸,有的使用轻量级骨干模型,但是这两种方式一者减小了尺寸、一者裁剪了通道,都丢失了部分空间信息。总而言之,空间分辨率和感受野就像鱼与熊掌,不可兼得。因为原始图像从输入网络开始,重复经历着卷积、池化的操作,特征图的分辨率由大至小,随着网络逐渐进入到较高的层次中,学习到的特征从空间信息丰富逐渐进入语义信息更加丰富的阶段。这样的特征适用于图像分类等任务,但语义分割不仅需要分类,还需要高分辨率输出,需要语义丰富的高层级特征和空间信息丰富的低层级特征充分且有效地融合,才能使网络性能更上一层楼。当前用于实现语义分割实时推理速度的方法主要有以下几种:(1)通过限定输入图像的大小进行加速。这种方法的优点是简单有效地降低了计算复杂度,缺点是会损失不少空间细节。(2)通过删减通道数量进行加速。这种方法常用于backbone网络的初期,劣势是会降低空间细节的存在感。(3)通过抛弃模型的末尾部分进行加速。以ENet为例,该方法的缺点是最后阶段的丢弃导致模型下采样程度不够深、感受野不够大,因此判别误差较大,损失了模型性能。以上这些提速的方法会丢失很多空间信息,从而导致精度大幅下降,即舍精度换速度。总括而言,前述方法无法在现实运用中取得理想效果。针对以上问题,为了补全缺失的空间信息,U形结构被提出并应用于语义分割,取得了不错的效果。U形结构分为特征提取和上采样两部分,在上采样的每个层级,引进相应的下采样阶段提炼的特征,通过这种方式,U形结构融合了多尺度特征,逐渐弥补了空间信息。但有得必有失,U形结构相比普通结构增加了不少计算量,导致网络处理速度减缓,无法达到实时的要求;另外,以这种操作补回的空间细节微不足道,大部分细节信息无法轻易通过不同层级特征的融合找回。除了U形结构,也有方法采用多分支框架,通过组合空间细节信息和上下文语义信息解决问题。然而,与U形结构相似的,新增的分支给整个网络带来了多余的计算量,导致速度变慢,更重要的是模型的学习能力被分支之间的相互独立性限制住了。除此之外,还有利用空洞卷积、空间池化金字塔等方法的网络,但是此类方法会限制速度,且需要出色的计算能力,轻量级骨干网络无法胜任。
技术实现思路
本专利技术的目的是克服现有技术的不足,提出了一项基于双路深度神经网络的无人驾驶场景实时语义分割方法,并在图像预处理、模型训练、模型测试、实际应用等四个方面进行了设计,提高了模型的准确率和速率。本专利技术的技术方案如下:基于双路深度神经网络的无人驾驶场景实时语义分割方法,包括如下步骤:步骤1、以残差网络ResNet-18为基础网络,分流出空间信息分支和上下文信息分支;步骤2、对上下文信息分支的不同阶段输出使用注意力精炼模块进行优化;步骤3、对空间信息分支和上下文信息分支的输出使用特征融合模块进行多尺度融合,用于网络最终输出;步骤4、在上下文信息分支中添加两个辅助损失函数,与主损失函数共同监督训练。可选的,在步骤1中所述的空间信息分支与上下文信息分支具体为:空间信息分支:用于弥补语义分割中丢失的空间信息,它包含了残差网络ResNet-18的前三块,空间信息分支利用其第三块的输出特征,该输出特征的空间尺寸为原图的1/8。此阶段的特征分辨率较高,并且已经学习到了足够的空间信息。后续该第三块的输出特征与上下文信息分支的输出特征进行融合;上下文信息分支:利用ResNet-18快速下采样后,添加全局平均池化以最大化感受野,获取全局信息。上下文信息分支以残差网络ResNet-18作为基础网络获取高级上下文特征,进而改善语义分割网络的分类能力。该分支包括残差网络ResNet-18的前五块,其中最后两块输出的特征图的空间尺寸分别为原图的1/16和1/32,令这两个输出分别经过注意力精炼模块后得到特征图Ⅰ和特征图Ⅱ。在上下文信息分支的最后,为了最大化网络的感受野,对最后一块输出的特征图加入了全局平均池化,从而获得了空间尺寸为1x1的特征图Ⅲ。将特征图Ⅲ进行上采样后与特征图Ⅱ在通道上叠加后获得新的特征图;再将新的特征图进行上采样后与特征图Ⅰ进行叠加,最后得到上下文信息分支的最终输出特征图;然后将上下文信息分支的输出特征图与空间信息分支的输出特征图进行融合。可选的,在步骤2中所述的注意力精炼模块具体为:注意力精炼模块:用于上下文信息分支,以提炼最后两阶段的输出。注意力精炼模块在开头使用全局平均池化获得最大感受野,从而整合全局上下文语义信息,在后续步骤中,通过注意力掩码训练网络侧重性地学习,使特征带有不同的权重。具体来说,注意力精炼模块针对ResNet-18最后两块输出的特征图的每个通道分别计算其权重,然后对该特征图原来的输出通道用对应的权重进行加权,得到新的加权后的特征图,起到重新调节整合特征的作用。例如:第4块输出特征图Ⅴ,对特征图Ⅴ的每个通道计本文档来自技高网
...

【技术保护点】
1.基于双路深度神经网络的无人驾驶场景实时语义分割方法,其特征在于包括如下步骤:/n步骤1、以残差网络ResNet-18为基础网络,分流出空间信息分支和上下文信息分支;/n步骤2、对上下文信息分支的不同阶段输出使用注意力精炼模块进行优化;/n步骤3、对空间信息分支和上下文信息分支的输出使用特征融合模块进行多尺度融合,用于网络最终输出;/n步骤4、在上下文信息分支中添加两个辅助损失函数,与主损失函数共同监督训练。/n

【技术特征摘要】
1.基于双路深度神经网络的无人驾驶场景实时语义分割方法,其特征在于包括如下步骤:
步骤1、以残差网络ResNet-18为基础网络,分流出空间信息分支和上下文信息分支;
步骤2、对上下文信息分支的不同阶段输出使用注意力精炼模块进行优化;
步骤3、对空间信息分支和上下文信息分支的输出使用特征融合模块进行多尺度融合,用于网络最终输出;
步骤4、在上下文信息分支中添加两个辅助损失函数,与主损失函数共同监督训练。


2.根据权利要求1所述的基于双路深度神经网络的无人驾驶场景实时语义分割方法,其特征在于步骤1中所述的空间信息分支和上下文信息分支具体如下:
空间信息分支:用于弥补语义分割中丢失的空间信息,它包含了残差网络ResNet-18的前三块,空间信息分支利用其第三块的输出特征,该输出特征的空间尺寸为原图的1/8;
上下文信息分支:包括残差网络ResNet-18的前五块,其中最后两块输出的特征图的空间尺寸分别为原图的1/16和1/32,令这两个输出分别经过注意力精炼模块后得到特征图Ⅰ和特征图Ⅱ。


3.根据权利要求2所述的基于双路深度神经网络的无人驾驶场景实时语义分割方法,其特征在于在上下文信息分支的最后,为了最大化网络的感受野,对最后一块输出的特征图加入了全局平均池化,从而获得了空间尺寸为1x1的特征图Ⅲ;
然后将特征图Ⅲ进行上采样后与特征图Ⅱ在通道上叠加后获得新的特征图;再将新的特征图进行上采样后与特征图Ⅰ进行叠加,最后得到上下文信息分支的最终输出特征图;
然后将上下文信息分支的输出特征图与空间信息分支的输出特征图进行融合。


4.根据权利要求1或3所述的基于双路深度神经网络的无人驾驶场景实时语义分割方法,其特征在于步骤2中所述的注意力精炼模块具体为:
注意力精炼模块:用于上下文信息分支,以提炼最后两阶段的输出;注意力精炼模块针对ResNet-18最后两...

【专利技术属性】
技术研发人员:秦飞巍沈希乐樊谨李家成
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1