一种自动驾驶多任务视觉感知方法技术

技术编号:38987485 阅读:11 留言:0更新日期:2023-10-07 10:18
本发明专利技术涉及一种自动驾驶多任务视觉感知方法,属于自动驾驶领域。采取硬约束式多任务网络的方式同时利用目标检测和语义分割的方法对图像进行全面的感知;采用单阶段目标检测网络yolov5的主干网络和特征金字塔网络组成网络的编码器,实现对图像的特征进行提取和融合。利用目标检测解码器和语义分割解码器来分别实现对行人、车辆的目标检测和车道线及可行驶区域的语义分割任务;采用卷积和特征图拼接代替传统残差模块中的相加来融合共享网络层中的位置信息,减少了目标边缘定位信息的丢失从而改善了车道线和可行驶区域之间的边缘检测模糊的问题。利用任务学习挖掘不同检测任务间的隐藏信息,从而提高模型整体的检测精度。从而提高模型整体的检测精度。从而提高模型整体的检测精度。

【技术实现步骤摘要】
一种自动驾驶多任务视觉感知方法


[0001]本专利技术属于自动驾驶领域,涉及一种自动驾驶多任务视觉感知方法。

技术介绍

[0002]一辆自动驾驶汽车的组成部分主要包括环境感知系统、路径规划系统、决策控制系统。视觉感知是感知系统中不可或缺的部分。相比于其他传感器,视觉摄像头传感器价格低廉,通过安装在车辆前部就能够精准获取道路地面指示线、交通标志、前方障碍物等信息,使用图像处理算法可以实现对道路多目标检测及可行驶区域分割,可有效提高智能车的行驶安全性,因此该类技术的应用拥有广阔的发展前景,对于智能车的研究具有非常重要的应用价值。视觉感知技术是自动驾驶汽车的关键性技术,一个好的视觉感知算法可以帮助自动驾驶汽车在面对复杂的路况时做出合理正确的决策。目标检测和语义分割是视觉感知中两个最基础的任务。近年来,随着深度学习技术的不断发展,视觉感知技术在目标检测和语义分割领域取得了巨大的突破。
[0003]在目标检测领域,目标检测主要分为单阶段检测算法和两阶段目标检测算法。两阶段目标检测算法将目标检测任务分为两步运行,第一步在图像提取需要进行目标检测的目标候选框,第二步对选取的候选框进行分类和边界框回归处理。这类算法检测精度高,但步骤繁琐容易导致检测速度低,实时性差等问题,主要代表算法有R

CNN及其改进算法FasterR

CNN。以YOLO(YouOnly SeeOnce)为代表的单阶段目标检测算法可以同时实现边界框的回归和目标的分类,能够进行端到端的训练,不仅具有较高的检测速度而且其巧妙的网络结构设计使其具有令人满意的检测精度。但是这些算法都是基于矩形检测框形式的检测方法,在面对车道线和可行驶区域这种形状不规则的目标时无法找到合适的矩形框来包裹需要检测的目标。
[0004]在图像语义分割领域,图像语义分割的实质是对图像中的每一个像素进行目标分类,确定每一个像素点的类别,从而进行区域划分。这种区域划分方法对于检测车道线和可行驶区域这种形状不规则,分布不均,占图面积大的目标十分有效。语义分割的代表算法有U

Net,PSPNet等。
[0005]自动驾驶系统的视觉感知部分最重要的任务就是对行人、车辆、交通灯、交通标志,车道线、可行驶区域的检测与识别。利用目标检测算法可以实现对行人,车辆,交通灯等目标的检测,利用语义分割算法可以完成对车道线和可行驶区域的检测。但是这种“一个任务对应一个算法”的算法部署方案,不仅占用大量的计算资源,而且忽视各检测任务之间的隐藏的相关联系。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种自动驾驶多任务视觉感知方法。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]一种自动驾驶多任务视觉感知方法,该方法包括以下步骤:
[0009]S1:图像在送入检测网络之前会经过Resize模块,对图像进行预处理,然后将预处理后的图像集送入到检测网络中;
[0010]S2:对送入网络中的图像进行处理,经过主干网络进行特征提取,并通过颈部网络进行特征融合;
[0011]S3:将融合后的特征分别输入到目标检测解码器和语义分割解码器中,以实现对车辆和行人的障碍物进行目标检测,对可行驶区域和车道线进行语义分割;
[0012]S4:在语义分割头部中设计改进的残差连接模块,利用卷积和特征拼接的方式代替传统残差模块的相加,减少底层特征中定位信息的丢失,并基于改进的残差模块设计能够对车道线和可行驶区域进行语义分割的解码器,在解决分割边缘模糊问题的同时,提高语义分割的检测精度。
[0013]可选的,所述S4中,设计能够对车道线和可行驶区域进行语义分割的解码器为:首先采用金字塔池化模块PPM来聚合S3中处理过的特征图中不同区域的上下文信息,提高网络获取全局信息的能力;然后将处理过的特征图与S1中的主干网络中的特征图进行特征叠加,最后利用1*1的卷积来融合两部分特征;为恢复图像中目标的位置信息,同时不增加过大的计算量,采用最邻近差值法NI来上采样来恢复图像的分辨率,从而实现对车道线和可行驶区域的语义分割。
[0014]可选的,所述S4中,语义分割的解码器采用改进的深度残差连接模块,利用拼接和卷积的方式代替传统残差模块的相加来实现特征融合;拼接的方式使底层的特征信息得到完全性的保留,使得分割区域间的边缘信息更加完整。
[0015]可选的,所述改进的残差连接模块具体为:
[0016]常规残差模块如公式(1)所示:
[0017][0018]其中Z
i
代表经过特征融合后的特征图,X
i
和Y
i
分别表示需要进行融合的两个特征图,c1和c2分别表示特征图X
i
和Y
i
的通道数,这里c1和c2相等以相加的形式完成特征融合;改进的残差模块如公式(2)所示:
[0019][0020]T
i
为经过拼接后的特征图,T
i
、X
i
、Y
i
之间的关系如公式(3)和(4)所示:
[0021][0022][0023]这里c1与c2不需要相等,其中保留的为含有丰富定位信息的底层特征图,在后续上采样恢复分辨率时,利用这部分信息来进行不同区域的精确分割;利用1*1的卷积将拼接后的特征图进行特征融合并恢复成原来的维度。
[0024]本专利技术的有益效果在于:
[0025](1)相比一对一的单任务检测方案的部署,利用多任务学习网络不仅节省的大量
的计算资源和计算时间,而且多任务网络挖掘各检测任务间的相关的隐藏信息,提高各检测任务的性能;
[0026](2)基于改进的残差模块设计的解码器,在解决分割边缘模糊问题的同时,提高了语义分割的检测精度。
[0027]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0028]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0029]图1为算法整体框图;
[0030]图2为算法具体细节图;
[0031]图3为语义分割解码器的网络结构图;
[0032]图4为改进的残差模块图;图4(a)为常规残差模块结构图;图4(b)为改进的残差模块结构图;图4(c)为拼接方式图。
具体实施方式
[0033]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶多任务视觉感知方法,其特征在于:该方法包括以下步骤:S1:图像在送入检测网络之前会经过Resize模块,对图像进行预处理,然后将预处理后的图像集送入到检测网络中;S2:对送入网络中的图像进行处理,经过主干网络进行特征提取,并通过颈部网络进行特征融合;S3:将融合后的特征分别输入到目标检测解码器和语义分割解码器中,以实现对车辆和行人的障碍物进行目标检测,对可行驶区域和车道线进行语义分割;S4:在语义分割头部中设计改进的残差连接模块,利用卷积和特征拼接的方式代替传统残差模块的相加,减少底层特征中定位信息的丢失,并基于改进的残差模块设计能够对车道线和可行驶区域进行语义分割的解码器,在解决分割边缘模糊问题的同时,提高语义分割的检测精度。2.根据权利要求1所述的一种自动驾驶多任务视觉感知方法,其特征在于:所述S4中,设计能够对车道线和可行驶区域进行语义分割的解码器为:首先采用金字塔池化模块PPM来聚合S3中处理过的特征图中不同区域的上下文信息,提高网络获取全局信息的能力;然后将处理过的特征图与S1中的主干网络中的特征图进行特征叠加,最后利用1*1的卷积来融合两部分特征;为恢复图像中目标的位置信息,同时不增加过大的计算量,采用最邻近差值法NI来上采样来恢复图像的分辨率,从而实现对车道线和可行驶区域的语义分割。3.根据权利要求1所述的...

【专利技术属性】
技术研发人员:唐伦黄昂陈前斌
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1