当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于语义分割网络的路面附着系数预测方法技术

技术编号:38617265 阅读:14 留言:0更新日期:2023-08-26 23:44
本发明专利技术公开了一种基于语义分割网络的路面附着系数预测方法,首先,搭建基于多尺度空间注意力机制的语义分割网络;其次,将搭建的分割网络在公开数据集上进行预训练;然后,丰富语义分割数据集并对分割网络进行特异性训练;接着,利用分割网络提取路面区域制作路面分类网络数据集;然后,搭建并训练路面类型分类网络;最后,建立映射规则获取路面附着系数信息;本方法增强了算法对雨雪行驶场景的泛化能力,进一步提升了对行驶路面提取的精度、实时性以及鲁棒性;同时结合轻量化的路面识别网络,设计了语义分割网络、路面提取以及路面识别网络串行的算法结构,能够实现丰富驾驶场景下路面附着信息快速准确的预测。下路面附着信息快速准确的预测。下路面附着信息快速准确的预测。

【技术实现步骤摘要】
一种基于语义分割网络的路面附着系数预测方法


[0001]本专利技术属于智能汽车
,涉及一种基于计算机视觉的附着系数预测方法,更加具体来讲,涉及一种基于语义分割网络的路面附着系数预测方法;

技术介绍

[0002]随着车辆保有量的增加,汽车在带来便利与快捷的同时,交通安全问题也随之而来,交通事故已经成为国内外造成人员伤亡的主要原因之一,尤其是在低附着系数条件下,侧滑、漂移、碰撞等车辆失稳条件更易发生,交通事故所造成的生命与财产损失情况更为严重,因此提前获取准确的道路附着系数信息可以为驾驶员提供参考有助于提高行车安全;同时,先进的汽车主动安全系统需要准确的道路附着系数作为支撑,准确获取路面附着系数能够扩充汽车主动安全系统的工况适应范围,提前感知前方路面状态变化则有助于主动安全系统及时调整控制策略;因此,准确的识别以及获取行驶路面的路面类型以及附着系数是提升驾驶安全性以及舒适性的关键;
[0003]现阶段,获取路面附着系数的方法主要有基于动力学响应的估计方法和基于神经网络的图像视觉预测方法;其中基于动力学模型的估计器虽然可以获取准确的路面附着系数估计值,但是其估计精度受到车辆模型和轮胎模型的精度限制,并且难以提前获取路面附着系数预测值,存在一定的滞后性;得益于神经网络的飞速发展,以及车载摄像头等智能车辆硬件设施的升级和完善,使得基于视觉的路面附着系数识别方法更加可靠;同时,基于视觉的预测方法有效改善了动力学估计器的滞后性,能够提前感知前方路面状况,提升对危险工况的应对能力;此外,在视觉预测算法中嵌入语义分割网络可以使算法更专注于道路信息,排除冗余信息的干扰,有助于提升路面识别精度,从而获取更准确的路面附着系数预测信息;

技术实现思路

[0004]针对现有技术存在的问题,为了提升路面附着系数预测算法的精度,实时性以及鲁棒性,本专利技术提出了一种基于语义分割网络的路面附着系数预测方法;本方法搭建基于注意力机制的语义分割网络对前方行驶道路进行路面区域的提取,并通过预训练与特异性训练的方式尽可能的提升网络的精确性和鲁棒性,然后搭建并训练基于通道注意力的路面分类网络,所得路面分类结果再结合映射规则得到路面附着系数的预测结果;
[0005]本专利技术是采用如下技术方案实现的:
[0006]一种基于语义分割网络的路面附着系数预测方法,针对城市工况下对车辆行驶区域的道路类型分类以及路面附着系数进行预测,具体步骤如下:
[0007]步骤一、搭建基于多尺度空间注意力机制的语义分割网络:
[0008]利用智能驾驶汽车感知系统装备的车载摄像机采集车辆行驶过程中前方道路的视频数据,通过语义分割网络提取可行使的路面区域:
[0009]首先进行网络环境的配置与搭建:选用Linux操作系统作为图像处理以及网络搭
建和训练的运行环境,使用Python语言编写程序代码,并选用科技公司Meta人工智能团队开发的PyTorch作为深度学习网络搭建框架;运用环境编译软件Anaconda,新建虚拟环境,并在新环境下安装Python 3.10.8版本、PyTorch 1.11.0版本和OpenCV 4.6.0.66版本;
[0010]其次进行语义分割网络的搭建,采用先进的轻量化编码器

解码器框架Encoder

Decoder,在保证语义分割网络精度的同时满足算法的实时性要求;
[0011]然后在该编码器

解码器框架Encoder

Decoder下开始具体展开并搭建基于注意力机制的层次化的语义分割网络编码器结构,用于生成丰富的多尺度语义特征:先将输入图像缩放成尺寸为1024
×
1024
×
3的张量输入语义分割网络;再经过3
×
3的卷积层和BN层以及Gelu激活处理,实现对输入图片进行特征的初步提取以及下采样功能;
[0012]接着将得到的特征图作为特征提取模块的输入,其中特征提取模块的具体实现过程如下:首先采用1
×
1卷积用于调整输入通道数,并经过Gelu激活函数后,输入到由5
×
5主分支卷积和后续7
×
7、13
×
13的分路卷积所构成的空间注意力机制模块中,再经过1
×
1卷积输出代表空间注意力的权重参数;其中多尺度的空间注意力机制公式如下式所示:
[0013][0014]公式(1)中Atten为输出的代表空间注意力的权重参数,Atten0为空间注意力模块主分支的权重输出,Atten
i
为模块中第i个支路卷积的权重输出,其中i为支路卷积的个数;
[0015]接着通过1
×
1卷积扩充特征图通道数,再采用3
×
3的卷积对经过空间注意力加权处理的特征图进行更加细致的特征提取,将提取结果通过GeLu函数激活,最后再经过1
×
1卷积输出特征提取模块的处理结果;
[0016][0017]式中,Output为瓶颈模块的输出,F为瓶颈模块的输入,Conv2D(
·
)代表用卷积来处理输入特征图,Gelu(
·
)则代表使用激活函数对特征图的进一步处理;
[0018]利用上述搭建的编码器瓶颈模块,对网络输入张量进行四次串行的特征提取,得到代表不同语义级别的四个阶段的特征图;其中阶段一的特征提取工作由三个串行的特征提取模块进行,输出256
×
256
×
32的特征图;再通过上述下采样层架构,调整卷积层层数以及层内卷积的个数以及通道数,将特征图下采样后,再通过三个串行的特征提取模块得到阶段二中128
×
128
×
64尺寸的特征图;然后经过下采样层以及五个串行的特征处理模块得到64
×
64
×
160的阶段三的特征图;最后再经过一次下采样以及两个特征提取模块得到最后阶段四的32
×
32
×
256的特征图;
[0019]最后基于编码器

解码器框架Encoder

Decoder具体展开搭建轻量化的解码器架构:依次经过上采样、通道拼接操作、轻量化的ham_head解码器模块和全连接分类器对编码器所提取的不同阶段的特征图进行处理,用于融合不同层级的语义信息;为了收集多尺度的语义信息、扩大感受野,舍弃了低级语义信息较多的阶段一,将阶段二、阶段三和阶段四的特征图经过双线性插值的上采样方法处理成同等尺寸的特征图后再进行通道拼接concat操作,再输入到ham_head解码器模块中,对整合拼接后的128
×
128
×
480尺寸的特征图进行处理;其中ham_head解码器模块的具体实现过程如下:将concat操作得到的480通道的特征图,通过1
×
1的卷积层、32组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义分割网络的路面附着系数预测方法,针对城市工况下对车辆行驶区域的道路类型分类以及路面附着系数进行预测,其特征在于,具体步骤如下:步骤一、搭建基于多尺度空间注意力机制的语义分割网络:利用智能驾驶汽车感知系统装备的车载摄像机采集车辆行驶过程中前方道路的视频数据,通过语义分割网络提取可行使的路面区域:首先进行网络环境的配置与搭建:选用Linux操作系统作为图像处理以及网络搭建和训练的运行环境,使用Python语言编写程序代码,并选用科技公司Meta人工智能团队开发的PyTorch作为深度学习网络搭建框架;运用环境编译软件Anaconda,新建虚拟环境,并在新环境下安装Python 3.10.8版本、PyTorch 1.11.0版本和OpenCV 4.6.0.66版本;其次进行语义分割网络的搭建,采用先进的轻量化编码器

解码器框架Encoder

Decoder,在保证语义分割网络精度的同时满足算法的实时性要求;然后在该编码器

解码器框架Encoder

Decoder下开始具体展开并搭建基于注意力机制的层次化的语义分割网络编码器结构,用于生成丰富的多尺度语义特征:先将输入图像缩放成尺寸为1024
×
1024
×
3的张量输入语义分割网络;再经过3
×
3的卷积层和BN层以及Gelu激活处理,实现对输入图片进行特征的初步提取以及下采样功能;接着将得到的特征图作为特征提取模块的输入,其中特征提取模块的具体实现过程如下:首先采用1
×
1卷积用于调整输入通道数,并经过Gelu激活函数后,输入到由5
×
5主分支卷积和后续7
×
7、13
×
13的分路卷积所构成的空间注意力机制模块中,再经过1
×
1卷积输出代表空间注意力的权重参数;其中多尺度的空间注意力机制公式如下式所示:公式(1)中Atten为输出的代表空间注意力的权重参数,Atten0为空间注意力模块主分支的权重输出,Atten
i
为模块中第i个支路卷积的权重输出,其中i为支路卷积的个数;接着通过1
×
1卷积扩充特征图通道数,再采用3
×
3的卷积对经过空间注意力加权处理的特征图进行更加细致的特征提取,将提取结果通过GeLu函数激活,最后再经过1
×
1卷积输出特征提取模块的处理结果;式中,Output为瓶颈模块的输出,F为瓶颈模块的输入,Conv2D(
·
)代表用卷积来处理输入特征图,Gelu(
·
)则代表使用激活函数对特征图的进一步处理;利用上述搭建的编码器瓶颈模块,对网络输入张量进行四次串行的特征提取,得到代表不同语义级别的四个阶段的特征图;其中阶段一的特征提取工作由三个串行的特征提取模块进行,输出256
×
256
×
32的特征图;再通过上述下采样层架构,调整卷积层层数以及层内卷积的个数以及通道数,将特征图下采样后,再通过三个串行的特征提取模块得到阶段二中128
×
128
×
64尺寸的特征图;然后经过下采样层以及五个串行的特征处理模块得到64
×
64
×
160的阶段三的特征图;最后再经过一次下采样以及两个特征提取模块得到最后阶段四的32
×
32
×
256的特征图;最后基于编码器

解码器框架Encoder

Decoder具体展开搭建轻量化的解码器架构:依次经过上采样、通道拼接操作、轻量化的ham_head解码器模块和全连接分类器对编码器所
提取的不同阶段的特征图进行处理,用于融合不同层级的语义信息;为了收集多尺度的语义信息、扩大感受野,舍弃了低级语义信息较多的阶段一,将阶段二、阶段三和阶段四的特征图经过双线性插值的上采样方法处理成同等尺寸的特征图后再进行通道拼接concat操作,再输入到ham_head解码器模块中,对整合拼接后的128
×
128
×
480尺寸的特征图进行处理;其中ham_head解码器模块的具体实现过程如下:将concat操作得到的480通道的特征图,通过1
×
1的卷积层、32组别的GroupNorm层和ReLu激活层将特征图通道数压缩至256,再采用公式(3)所示的NMF的非负矩阵分解算法:V
m
×
n
=P
m
×
r
×
Q
r
×
n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)将特征矩阵V
m
×
n
分解成m
×
r和r
×
n的低置矩阵P
m
×
r
和Q
r
×
n
,其中P
m
×
r
为特征基矩阵,体现了数据的主要特征;而Q
r
×
n
为特征系数矩阵,表示数据特征的分布;算法用特征基矩阵来代替特征矩阵,能够避免冗余矩阵的干扰,加速图像算法处理过程提高算法实时性;最后经过再经过一个由1
×
1的卷积层、32组别的GroupNorm层和ReLu激活层所构成的1
×
1卷积架构的线性化层输出处理结果,得到ham_head解码器模块的输出;然后将处理后的特征图通过1
×
1的卷积层实现全连接操作,再经过softmax函数,将类别分数转换为概率分布,得到256
×
256
×
nls的特征图,其中每个像素点的值代表属于该语义类别的概率,nls代表待分类的语义类别数;再通过双线性插值的方法将所得特征图进行上采样,并且使用ArgMax函数按照最大概率给定每一像素点的语义类别预测结果,得到与输入图片相同尺寸的1024
×
1024的预测分割结果图即为编码器的输出;步骤二、将搭建的分割网络在公开数据集上进行预训练:选用Cityscapes数据集来进行语义分割网络的预训练,该数据集由奔驰公司推动发布可用于城市街景图像分割任务,其中包含50个城市的街景行驶场景图像,并具有涵盖路面、建筑、行人、车辆和建筑物等19类语义信息的精确标注;同时其图像样本与日常城市路况行驶的形式相似,因此预训练后的语义分割网络具有一定的泛化能力;参与网络模型训练和验证的精确标注图像样本数量共计5000张,其中训练集图片2975张,验证集图片为500张,测试集图片1525张;具体预训练过程如下:首先从数据集目录下加载图像,然后加载其对应的注释信息,再对训练的图像与注释进行数据增广,增广方式包括随机缩放尺寸,随机裁剪图片张量并且随机左右翻转,然后通过归一化函数将输入图像每个像素点进行标准化,最后设计如公式(4)所示的交叉熵损失函数:式中,nls为待分类的语义类别,在Cityscapes数据集中训练时所取值为19,y
c
为取值0或1的向量,用该元素的取值来判别该类别与样本类别是否相同,P
c
代表预测样本属于类别c的概率c∈(1,nls);并选用Poly学习率规则,对分割网络进行训练,其中Poly学习率衰减表达式如下:公式(5)中LR
initial
为网络训练的初始学习率,预训练过程中设置为0.002,iter为网络训练迭代步数,max_iter为最大训练步数,设置为40K步,power为衰减系数用于控制学习率
曲线的形状,设置为0.9;LR(iter)为计算更新得到的训练过程中具体步数对应的学习率,并且使用Adam优化求解算法,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率;根据计算机硬件性能,设置批处理大小为32,每4K步保存一次模型参数,同时使用验证集对网络进行性能评估;对于语义分割任务,选用基于混淆矩阵的平均像素精度Acc与平均交并比MIoU指标对网络预训练结果进行性能评估,其具体实现过程如下:对于表1所示二分类混淆矩阵Confusion Matrix的每一行代表了数据的真实归属类别,每一列代表了预测类别,矩阵中具体的元素值表示被预测为某类的样本数量;表1:二分类混淆矩阵Confusion Matrix的示意表准确率Acc表示预测类别正确的像素数占总像素数的百分比,公式(6)如下:MIoU表示对每一类预测结果和...

【专利技术属性】
技术研发人员:郭洪艳万俊成管人生刘俊孟庆瑜赵旭戴启坤刘嫣然谭中秋李佳霖王含李光尧
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1