一种面向交通场景的可扩展多任务视觉感知方法技术

技术编号:35995090 阅读:8 留言:0更新日期:2022-12-17 23:11
本发明专利技术公开了一种面向交通场景的可扩展多任务视觉感知方法,包括以下步骤:设计多任务视觉感知模型整体架构;搭建主干特征提取网络搭建任务分支网络;训练网络;检测多任务网络。本发明专利技术将主干特征提取网络与分支网络分开训练并保存权重的方法,提高了整个模型在交通场景中多任务检测的实时性,同时兼顾了模型的可扩展性。本发明专利技术通过增加边路权重分支网络设计了卷积多通道注意力残差模块,既可以缓解尺度变化带来的问题,又使网络更加关注需要检测的物体,可以有效忽略背景的干扰。本发明专利技术不仅缓解了视觉多任务检测需要占用大量硬件资源的问题,提高了网络的实时性,又提高了网络的可扩性,使其可以适应新的任务需求。使其可以适应新的任务需求。使其可以适应新的任务需求。

【技术实现步骤摘要】
一种面向交通场景的可扩展多任务视觉感知方法


[0001]本专利技术属于智能交通领域的智能车辆环境感知范畴,特别涉及一种面向交通场景的可扩展多任务视觉感知方法。

技术介绍

[0002]多任务视觉是在复杂的交通场景下实现自动驾驶的重要基础,通过深度神经网络进行目标检测、可行驶区域分割、人体姿态估计等视觉任务,可以为本车的路径规划提供重要的依据。
[0003]目前,针对交通场景的多任务视觉检测方法主要有两种:一种是将每一种具体的视觉任务分别搭建一个深度神经网络,然后在车载终端并行所有的检测网络以实现多任务的检测;第二种方法是整个多任务检测网络共用一个主干特征提取网络,然后连接多个具体的任务分支网络。在采用第一种实现多任务检测的方法时,每个具体的任务分开单独计算,可以较好的扩展新的视觉任务,但由于所有网络并行运算,会占用较大的内存和显存,检测速度降低,实时性差。而采用第二种方法时,共用一个特征提取网络,减少了网络的参数量和计算量,但网络的损失函数是根据已有的任务提前设定好的,多个任务耦合在一起,新增视觉任务需要全部重新训练网络,无法较好的扩展新的视觉任务。因此,需要研究共用主干网络分支网络、但不需要在新增视觉任务使全程重新训练的多任务可扩展视觉感知架构。上述两种方法均能实现多任务检测,但各自存在一定的局限性。

技术实现思路

[0004]为解决现有技术中存在的上述问题,本专利技术的目的在于提供一种面向交通场景的可扩展多任务视觉感知方法,既能提高多任务检测的实时性又能提高检测过程的可扩展性。
[0005]为实现上述目的,本专利技术的技术方案如下:一种面向交通场景的可扩展多任务视觉感知方法,包括以下步骤:
[0006]A、设计多任务视觉感知模型整体架构
[0007]多任务视觉感知模型整体架构由主干特征提取网络与任务分支网络组成。主干特征提取网络由一系列卷积层和多通道注意力残差模块堆叠而成,搭建完主干特征提取网络后,对主干特征提取网络进行训练,调整主干特征提取网络中的参数,并将调整完的参数保存下来,然后将主干特征提取网络最后三层的输出输入到候选框生成网络后,经候选框映射模块处理后分别同时输入到任务分支网络中,所述任务分支网络包括目标检测分支网络、人体关键点检测分支网络、可行驶区域分割分支网络和车道线检测分支网络,其中车道线检测分支网络与可行驶区域分支网络合并为一个任务分支网络且由可行驶区域分割分支网络同时实现可行驶区域分割分支网络和车道线检测分支网络的功能,目标检测分支网络由卷积层、池化层和批归一化层串联而成,人体关键点检测分支网络和可行驶区域分割分支以及车道线检测分支网络由一系列反卷积层串联而成,搭建完成任务分支网络后,对
任务分支网络分别进行训练,将训练完得到的任务分支网络参数保存下来,最后通过加载主干特征提取网络的参数和任务分支网络的参数对车载摄像头获取的图像进行预测,具体步骤如下:
[0008]A1、将车载摄像头获取的图像输入主干特征提取网络得到特征图。
[0009]A2、将得到的特征图送入到候选框生成网络中,得到候选框后,通过候选框映射模块将候选框映射到下采样后的特征图中。
[0010]A3、将候选框映射后的特征图并行送入到目标检测分支网络与人体关键点检测分支网络。
[0011]A4、在进行人体关键点检测分支网络的检测时,将目标检测得到的目标框与人体关键点检测的候选区域进行耦合,使得有人体区域为人体关键点检测分支网络的感兴趣区域。
[0012]A5、将主干特征提取网络得到的特征图经过特征金字塔后进入可行驶区域分割分支网络与车道线检测分支网络对特征图进行上采样,得到可行使区域的分割与车道线检测的结果,并将最终的结果在最开始车载摄像头获取的图像上标出。
[0013]B、搭建主干特征提取网络
[0014]主干特征提取网络借鉴纯卷积网络结构,设计卷积多通道注意力残差模块即Conv

MA

Next Block,将卷积多通道注意力残差模块堆叠组成主干特征提取网络,具体步骤如下:
[0015]B1、首先使用卷积对车载摄像头获取的图像进行下采样得到特征图,下采样之后使用层归一化技术对下采样特征图进行归一化处理。
[0016]B2、搭建卷积多通道注意力残差模块。卷积多通道注意力残差模块采用深度可分离卷积,然后将特征图先升维后降维,减少网络参数量。卷积多通道注意力残差模块分支网络表示为:
[0017]G(x)=Sigmoid(BN(Conv(GE(BN(Conv(GE(g(x))))))))
[0018]式中,x表示输入的特征图。
[0019]G(x)表示经过通过注意力分支网络得到的通道权重。
[0020]Sigmoid表示激活函数,其函数表达式为
[0021]BN表示批归一化层,将输入BN层的数据转化为均值为0,方差为1的分布。
[0022]Conv表示卷积操作,卷积是指以一个指定大小的矩阵数据与输入的数据相乘。
[0023]GE表示名为GELU激活函数,GELU激活函数的函数表达式为GELU(x)=x
·
Φ(x),Φ(x)表示高斯分布的积累概率分布,即在(

∞,x]区间对高斯分布的定积分。
[0024]g(x)表示全局池化。
[0025]最终将得到的通道权重G(x)与原特征图相乘使主干特征提取网络更关注有目标的区域。卷积多通道注意力残差模块的公式表示为:
[0026]C(x)=G(x)
·
dropout(Lscale(Conv(GE(Conv(BN(dwConv(x)))))))
[0027]式中,dropout表示随机关闭一些通道,使其失去作用。
[0028]Lscale表是通道缩放,以一定的比例减小特征图的通道数量。
[0029]dwConv表示深度可分离卷积,将输入的数据按维度进行卷积。
[0030]B3、将搭建完的卷积多通道注意力残差模块以不同的维度按比例进行堆叠。其具体公式如下:
[0031]output=a
·
C(b
·
C(c
·
C(d
·
C(x))))
[0032]式中,C表示卷积多通道注意力残差模块。
[0033]a、b、c、d均为整数,表示不同的比例。
[0034]Output表示输出。
[0035]C、搭建任务分支网络
[0036]搭建目标检测分支网络、人体关键点检测分支网络以及可行驶区域分割分支网络分别实现对交通场景中行人和车辆的识别、人体关键点的检测、可行驶区域分割以及车道线检测的功能。具体步骤如下:
[0037]C1、搭建目标检测分支网络
[0038]目标检测分支网络由两个全连接层组成,在全连接层之后分为类别预测和目标检测框回归。目标检测分支网络的损失函数为:
[0039][0040]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向交通场景的可扩展多任务视觉感知方法,其特征在于:包括以下步骤:A、设计多任务视觉感知模型整体架构多任务视觉感知模型整体架构由主干特征提取网络与任务分支网络组成;主干特征提取网络由一系列卷积层和多通道注意力残差模块堆叠而成,搭建完主干特征提取网络后,对主干特征提取网络进行训练,调整主干特征提取网络中的参数,并将调整完的参数保存下来,然后将主干特征提取网络最后三层的输出输入到候选框生成网络后,经候选框映射模块处理后分别同时输入到任务分支网络中,所述任务分支网络包括目标检测分支网络、人体关键点检测分支网络、可行驶区域分割分支网络和车道线检测分支网络,其中车道线检测分支网络与可行驶区域分支网络合并为一个任务分支网络且由可行驶区域分割分支网络同时实现可行驶区域分割分支网络和车道线检测分支网络的功能,目标检测分支网络由卷积层、池化层和批归一化层串联而成,人体关键点检测分支网络和可行驶区域分割分支以及车道线检测分支网络由一系列反卷积层串联而成,搭建完成任务分支网络后,对任务分支网络分别进行训练,将训练完得到的任务分支网络参数保存下来,最后通过加载主干特征提取网络的参数和任务分支网络的参数对车载摄像头获取的图像进行预测,具体步骤如下:A1、将车载摄像头获取的图像输入主干特征提取网络得到特征图;A2、将得到的特征图送入到候选框生成网络中,得到候选框后,通过候选框映射模块将候选框映射到下采样后的特征图中;A3、将候选框映射后的特征图并行送入到目标检测分支网络与人体关键点检测分支网络;A4、在进行人体关键点检测分支网络的检测时,将目标检测得到的目标框与人体关键点检测的候选区域进行耦合,使得有人体区域为人体关键点检测分支网络的感兴趣区域;A5、将主干特征提取网络得到的特征图经过特征金字塔后进入可行驶区域分割分支网络与车道线检测分支网络对特征图进行上采样,得到可行使区域的分割与车道线检测的结果,并将最终的结果在最开始车载摄像头获取的图像上标出;B、搭建主干特征提取网络主干特征提取网络借鉴纯卷积网络结构,设计卷积多通道注意力残差模块即Conv

MA

Next Block,将卷积多通道注意力残差模块堆叠组成主干特征提取网络,具体步骤如下:B1、首先使用卷积对车载摄像头获取的图像进行下采样得到特征图,下采样之后使用层归一化技术对下采样特征图进行归一化处理;B2、搭建卷积多通道注意力残差模块;卷积多通道注意力残差模块采用深度可分离卷积,然后将特征图先升维后降维,减少网络参数量;卷积多通道注意力残差模块分支网络表示为:G(x)=Sigmoid(BN(Conv(GE(BN(Conv(GE(g(x))))))))式中,x表示输入的特征图;G(x)表示经过通过注意力分支网络得到的通道权重;Sigmoid表示激活函数,其函数表达式为BN表示批归一化层,将输入BN层的数据转化为均值为0,方差为1的分布;
Conv表示卷积操作,卷积是指以一个指定大小的矩阵数据与输入的数据相乘;GE表示名为GELU激活函数,GELU激活函数的函数表达式为GELU(x)=x
·
Φ(x),Φ(x)表示高斯分布的积累概率分布,即在(

∞,x]区间对高斯分布的定积分;g(x)表示全局池化;最终将得到的通道权重G(x)与原特征图相乘使主干特征提取网络更关注有目标的区域;卷积多通道注意力残差模块的公式表示为:C(x)=G(x)
·
dropout(Lscale(Conv(GE(Conv(BN(dwConv(x)))))))式中,dropout表示随机关闭一些通道,使其失去作用;Lscale表是通道缩放,以一定的比例减小特征图的通道数量;dwConv表示深度可分离卷积,将输入的数据按维度进行卷积;B3、将搭建完的卷积多通道注意力残差模块以不同的维度按比例进行堆叠;其具体公式如下:output=a
·
C(b
·
C(c
·
C(d
·
C(x))))式中,C表示卷积多通道注意力残...

【专利技术属性】
技术研发人员:李琳辉方敏航王政皓赵剑连静
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1