当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于Transformer的高精地图实时预测方法和系统技术方案

技术编号:37505186 阅读:19 留言:0更新日期:2023-05-07 09:41
本发明专利技术公开了一种基于Transformer的高精地图实时预测方法,包括:从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据;将预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果;使用点非极大值抑制方法对每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果。解码后的检测结果。解码后的检测结果。

【技术实现步骤摘要】
一种基于Transformer的高精地图实时预测方法和系统


[0001]本专利技术属于深度学习和视觉感知
,更具体地,涉及一种基于Transformer的高精地图实时预测方法和系统。

技术介绍

[0002]高精地图实时预测在自动驾驶研究领域里起着至关重要的作用,对于道路的准确感知往往是路线规划、车辆转向以及车道保持等下游任务的第一步。因此高精地图实时预测研究是目前深度学习的重要组成部分,体现出巨大的研究潜力和应用价值。此外,高精地图通常包含车道线,人行道和路沿等多种道路类别信息。
[0003]目前高精地图实时预测算法主要划分为三种方法。第一种方法是对于2D图像特征不进行投影,直接在鸟瞰图(Bird

s Eye View,简称为BEV)空间中将高精地图相关的道路结构信息检测出来,然后利用相机的内外参数和位姿信息,将检测结果直接转换到鸟瞰图空间。第二种方法是通过逆透视变换(Inverse Perspective Mapping,简称为IPM),根据相机的内外参数和位姿信息将2D图像特征信息映射到鸟瞰图空间下,得到鸟瞰图特征图,然后通过鸟瞰图特征图检测出高精地图的道路结构信息。第三种方法是基于深度估计的方法,其通过加入像素级的深度信息,将每个像素的位置信息提升到三维,然后借助相机内参投影到相机坐标系,投影到鸟瞰图空间,以此获得鸟瞰图特征图,最后通过鸟瞰图特征图检测出高精地图的道路结构信息。
[0004]然而,上述几种现有的高精地图预测方法均存在一些不可忽略的技术问题,第一,将图像坐标系中的检测结果直接转换到鸟瞰图空间没有很好地利用图像特征的高层语义信息,使得模型缺乏鲁棒性,并且对于多个相机对应的检测结果进行简单地拼接,使得多个相机对应的图像特征之间没有进行高效的信息融合。第二,逆透视变换作为一种简化相机模型的操作,在转换过程中会引入位置误差,并且在面临复杂的场景和不准确的相机参数时,会出现检测不佳的情况;第三,由于目前的深度估计模型仍然存在预测不准确的技术问题,而微小的深度估计偏差可能会引入较大的空间转换位置误差,这都会进一步影响高精地图检测的准确度。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于Transformer的高精地图实时预测方法和系统,其目的在于,解决现有直接将图像空间中的道路检测结果转换到鸟瞰图空间中,容易导致模型缺乏鲁棒性,使得多个相机视角之间的特征信息交互不足,最终降低高精地图预测精度的技术问题,以及基于逆透视变化的方法简化相机模型,无法处理复杂驾驶场景的技术问题,以及基于深度估计的方法过于依赖深度信息的准确性,容易导致深度估计不准确,降低图像特征向鸟瞰图空间转换的准确度的技术问题。
[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种基于Transformer的高精地图实时预测方法,包括以下步骤:
[0007](1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
[0008](2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
[0009](3)使用点非极大值抑制方法对步骤(2)得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。
[0010]优选地,相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参,自车标定数据主要包括但不局限于自车位置以及朝向。
[0011]道路类别包括三种,即车道线、人行道、以及路沿。
[0012]优选地,步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为,首先将相机内参和相机外参相乘,得到图像坐标系向自车坐标系转换的投影矩阵,然后根据预先建立的鸟瞰图空间坐标系,将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵,最后将得到的两个投影矩阵相乘,得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵;
[0013]步骤(1)中对输入的多个图像数据进行预处理操作,包括缩放和归一化操作,缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448
×
800
×
3,归一化操作是将图像数据中的平均亮度值进行移除。
[0014]优选地,高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络,和预测头网络三个部分;
[0015]特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块,其具体结构为:
[0016]ResNet网络,其输入为所有视角的多个图像数据,对其进行标准的特征提取操作,输出为维度为以及大小的特征张量,其中W表示每个图像数据的宽度,其取值为800,H表示每个图像数据的高度,其取值为448,每个图像数据的通道数为3;
[0017]轴向特征金字塔模块,其输入为ResNet网络输出的轴向特征金字塔模块,其输入为ResNet网络输出的以及大小的特征张量,将其按照尺寸从大到小依次排列,得到层特征张量。将每一层特征张量进行轴向自注意力计算,再和上一层更新后的特征张量进行轴向交叉注意力计算,最终输出为以及大小的特征张量;
[0018]鸟瞰图地面构建网络由N个解码层串联组成,其中N的取值范围是1到3,每个解码层的输入是100
×
50
×
256大小的查询特征和特征金字塔模块输出得到的
大小的特征张量,首先,对所有查询特征进行轴向自注意力计算,以得到更新后的100
×
50
×
256大小的查询特征,然后,遍历更新后的100
×
50
×
256大小的特征张量的每一个查询特征,根据查询特征投影到相机视角是否可见的结果,将其划分为可见查询特征或者为不可见查询特征,随后,对可见查询特征和特征金字塔模块输出得到的以及大小的特征张量进行多视角采样注意力计算,得到更新后的可见查询特征,大小为N1×
256,然后,对不可见查询特征和特征金字塔模块输出得到的大小的特征张量进行全局交叉注意力计算,以得到更新后的不可见查询特征,大小为N2×
256,其中N1+N2=5000,最后,将所有查询特征输入全连接层网络,以得到100
×
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的高精地图实时预测方法,其特征在于,包括以下步骤:(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。(2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。(3)使用点非极大值抑制方法对步骤(2)得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。2.根据权利要求1所述的基于Transformer的高精地图实时预测方法,其特征在于,相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参,自车标定数据主要包括但不局限于自车位置以及朝向。道路类别包括三种,即车道线、人行道、以及路沿。3.根据权利要求1或2所述的基于Transformer的高精地图实时预测方法,其特征在于,步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为,首先将相机内参和相机外参相乘,得到图像坐标系向自车坐标系转换的投影矩阵,然后根据预先建立的鸟瞰图空间坐标系,将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵,最后将得到的两个投影矩阵相乘,得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵;步骤(1)中对输入的多个图像数据进行预处理操作,包括缩放和归一化操作,缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448
×
800
×
3,归一化操作是将图像数据中的平均亮度值进行移除。4.根据权利要求1至3中任意一项所述的基于Transformer的高精地图实时预测方法,其特征在于,高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络,和预测头网络三个部分;特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块,其具体结构为:ResNet网络,其输入为所有视角的多个图像数据,对其进行标准的特征提取操作,输出为维度为以及大小的特征张量,其中W表示每个图像数据的宽度,其取值为800,H表示每个图像数据的高度,其取值为448,每个图像数据的通道数为3;轴向特征金字塔模块,其输入为ResNet网络输出的轴向特征金字塔模块,其输入为ResNet网络输出的以及
大小的特征张量,将其按照尺寸从大到小依次排列,得到层特征张量。将每一层特征张量进行轴向自注意力计算,再和上一层更新后的特征张量进行轴向交叉注意力计算,最终输出为以及大小的特征张量;鸟瞰图地面构建网络由N个解码层串联组成,其中N的取值范围是1到3,每个解码层的输入是100
×
50
×
256大小的查询特征和特征金字塔模块输出得到的大小的特征张量,首先,对所有查询特征进行轴向自注意力计算,以得到更新后的100
×
50
×
256大小的查询特征,然后,遍历更新后的100
×
50
×
256大小的特征张量的每一个查询特征,根据查询特征投影到相机视角是否可见的结果,将其划分为可见查询特征或者为不可见查询特征,随后,对可见查询特征和特征金字塔模块输出得到的以及大小的特征张量进行多视角采样注意力计算,得到更新后的可见查询特征,大小为N1×
256,然后,对不可见查询特征和特征金字塔模块输出得到的大小的特征张量进行全局交叉注意力计算,以得到更新后的不可见查询特征,大小为N2×
256,其中N1+N2=5000,最后,将所有查询特征输入全连接层网络,以得到100
×
50
×
256大小的特征张量,作为下一个解码层的输入,由此,鸟瞰图地面构建网络最终输出为100
×
50
×
256大小的特征张量;预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分,所有预测头的结构完全相同,每个预测头由三个相同的并行的网络分支构成,每个网络分支由M个卷积层顺序连接而成,将100
×
50
×
256大小的特征张量输入三个预测头中,并进行上采样操作,以得到三个预测结果,每个预测结果包括400
×
200
×
2大小的分割图、400
×
200
×
4大小的偏移图、以及400
×
200
×
2大小的距离图,其中M的取值范围是2到4。5.根据权利要求4所述的基于Transformer的高精地图实时预测方法,其特征在于,高精地图实时预测模型是通过以下步骤训练得到的:(2

1)获取高精地图自动驾驶数据集、每个图像数据所对应的相机内外参数以及自车的标定参数,对该高精地图自动驾驶数据集进行预处理,以得到预处理后的高精地图自动驾驶数据集,并将其按比例划分为训练集和验证集,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵。(2

2)将步骤(2

1)获取的训练集输入预训练好的ResNet模型中,以得到每个视角v对应的第l个尺度的图像特征对每个视角v对应的多尺度图像特征进行轴向注意力计算,以得到该视角对应的多尺度图像特征并对该视角对应的多尺度图像特征进行跨尺度融合,以得到更新后的多尺度图像特征其中v∈{1,...,V},V表示相机视角的数量,l∈{1,...,L},L表示图像特征的尺度数量;(2

3)初始化一组栅格化、且可学习的查询特征Q,尺寸为H
B
×
W
B
×
C,其中H
B
代表鸟瞰图平面的长,W
B
代表鸟瞰图平面的宽,C代表每个查询特征Q
i
的通道数,i代表查询特征的索引值,并且i∈{1,...,H
B
W
B
},即Q
i
的尺寸为1
×
C,对每个查询特征对应的3D坐标和步骤(2

1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系
的2D坐标,根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系,将所有的查询特征划分成可见查询特征和不可见查询特征,对每个可见查询特征以及对应的2D坐标和步骤(2

2)得到的多视角多尺度图像特征进行多视角采样注意力计算MSA,以得到更新后的可见查询特征;(2

4)对步骤(2

2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层计算,以得到3D图像特征,将每个不可见查询特征和3D图像特征进行空洞查询补全DQC计算,以得到更新后的不可见查询特征,将步骤(2

3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接,以得到鸟瞰图特征图。(2

5)将步骤(2

4)得到的鸟瞰图特征图输入预测头网络中,以分别得到各个道路类别对应的预测结果,每个预测结果都包含分割图、偏移图和距离图。(2

6)根据步骤(2

5)得到的所有道路类别的分割预测结果,偏移预测结果和距离预测结果计算损失函数,并利用该损失函数对高精地图实时检测模型进行迭代训练,直到该高精地图实时...

【专利技术属性】
技术研发人员:张力徐升华聂铭蔡信岳徐航
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1