一种融合多尺度自注意力机制的无人驾驶环境感知方法技术

技术编号：40210156 阅读：6 留言：0更新日期：2024-02-02 22:20

本发明专利技术提出了一种融合多尺度自注意力机制的无人驾驶环境感知方法。针对无人驾驶环境目标尺度多样不易识别的问题，首先通过卷积得到不同尺度的特征信息，并且使用深度可分离卷积获得具有不同大小感受野的分支，然后通过多条分支独立地输入融合CNN的Transformer encoders，执行全局自注意力机制从而在同一特征级别上获得更丰富的语义信息。在特征聚合部分，为了增强网络的表达能力，增加一层参数层再融合，该过程将卷积局部特征与Transformer的全局特征连接起来，同时利用了卷积的局部连通性和Transformer的全局上下文。最后结合无人驾驶系统硬件需求，对网络进行轻量化处理，本发明专利技术将改进的多尺度Transformer网络作为教师模型，以ResNet作为学生模型进行知识蒸馏获得高精度的轻量化模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术提出了一种融合多尺度自注意力机制的无人驾驶环境感知方法，属于无人驾驶和计算机视觉分析领域。

技术介绍

1、无人驾驶车辆作为智能交通的未来发展方向，可以高效的增强公路安全保障、缓解交通拥堵、减少空气污染、给驾驶员节省更多时间。但是随着自动驾驶级别的逐渐提高，对智能车辆在复杂场景中的感知与决策的能力提出了更高的要求，在不同环境下的感知与分析不仅面临着传感器带来的噪声等问题，同时针对突发情况还需要决策能力具有更高的鲁棒性。

2、无人驾驶汽车将环境感知、路径规划、辅助驾驶等融为一体构造一个综合智能系统。无人驾驶汽车应具有独立完成任务的能力，自主导航技术是其重中之重，而且环境感知是最关键、最基本的问题。所谓环境感知即无人驾驶汽车利用雷达、激光、相机等传感器感知周围环境。它们需要对图像或地图视图中的物体进行明确的或概率的估计。自alexnet在imagenet 图像分类挑战中获得冠军之后，卷积神经网络架构通过一系列设计变得更深、更密集且卷积形式更复杂，resnet提出了残差网络在加深网络层数时解决了梯度消失问题；densenet引入了密集连接的拓扑结构将每个卷积块与前一个卷积块连接起来；vgg通过叠加卷积核扩大感受野的方法加深网络；googlenet通过构建密集的块结构来近似最优的稀疏结构在提高性能时不增加计算量；efficientnet证明了可以利用复合系数统一缩放模型所有维度从而提高模型性能。另一方面，transformer 由于自注意力模块具有捕捉长距离依赖的能力而被用于自然语言处理任务，许多研究人员受此启发，尝

3、vision transformer(vit)由于不使用卷积神经网络而通过图像序列化将transformer 应用于图像分类，因此迅速引入改进并用于各种下游任务。由于transformer 的自注意力模块对整个输入序列进行操作，处理自然图像时把每一个像素点都看做一个标记，其长度会远远长于单词序列，因此会比卷积操作产生更多的内存和计算成本。vit 采用折中策略将多个像素点嵌入图像补丁(patch)作为一个标记(token)输入自注意力模块进行计算，但是计算复杂度仍然过高且要求输入图片只能是固定大小。本专利技术基于改进多尺度transformer网络实现无人驾驶环境感知，能有效解决vit模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点。

4、本专利技术的创新之处在于，提出了一种融合多尺度自注意力机制的无人驾驶环境感知方法，针对无人驾驶环境目标尺度多样不易识别的问题，首先将相同大小（即序列长度）的特征同时嵌入不同尺度的分支，然后通过多条分支独立地输入transformer encoders，执行全局自注意力机制，然后对生成的局部特征和全局特征进行交互聚合，从而在同一特征级别上获得更丰富的语义信息。最后考虑应用在无人驾驶环境感知系统网络的需求，将改进的多尺度transformer网络作为教师模型，以resnet作为学生模型进行知识蒸馏获得高精度的轻量化模型。

技术实现思路

1、本专利技术解决技术问题：提出融合自注意力机制的多尺度检测网络，使用不同尺度的卷积核对图片进行采样，使网络拥有不同大小的感受野，解决transformer单尺度输入自注意力模块时会丢失许多语义信息的问题，并且使用深度可分离卷积降低参数量；同时还提出transformer融合cnn，增加局部特征信息；并且在特征聚合中增加一层参数卷积，增强网络表达力，获得粗粒度特征和细粒度特征之间的交互信息；最后通过知识蒸馏，以resnet作为学生模型，得到精度良好，模型参数小的网络，更好满足无人驾驶实时性要求。

2、本专利技术技术解决方案：如图1所示，一种融合多尺度自注意力机制的无人驾驶环境感知方法，实现步骤如下：

3、步骤s1融合自注意力机制的多尺度检测网络：首先将相同大小（即序列长度）的特征同时嵌入不同尺度的分支，然后通过多条分支独立地输入融合cnn的transformerencoders，执行全局自注意力机制，然后进行特征聚合，从而在同一特征级别上同时获得精细与粗略特征。最后将改进的多尺度transformer网络作为教师模型，以resnet作为学生模型进行知识蒸馏获得高精度的轻量化模型。

4、2.依据权利要求1所述的融合多尺度自注意力机制的无人驾驶环境感知方法，其特征在于所述步骤s1融合自注意力机制的多尺度检测网络的进一步实现如下：

5、步骤s11多尺度分支嵌入层：输入无人驾驶系统获取的图像，适当调整卷积的填充/步长后产生具有相同序列长度（即，特征分辨率）的特征，使用3×3, 5×5, 7×7卷积获得不同大小感受野，为减少模型参数量和计算量，采用深度可分离卷积。

6、步骤s12 融合cnn的transformer编码层：将cnn与transformer级联，transformer的自注意力层通过查询 (query) 与键 (key)-值 (value) 对之间的交互实现信息的动态聚合，获得全局信息交互，cnn通过卷积特征提取获得局部信息，从而丰富网络的特征多样性, 同时改善 transformer特征的过度光滑的问题。

7、步骤s13 全局特征交互聚合：将cnn局部特征与transformer全局特征相结合，为增强网络表达性，先通过一层参数卷积，然后将其进行串联，同时利用了卷积的局部连通性和transformer的全局上下文，最后对无人驾驶系统环境进行识别预测。

8、步骤s14基于知识蒸馏的网络轻量化：首先将改进的多尺度transformer网络作为教师模型，以resnet作为学生模型进行知识蒸馏完成网络的轻量化，获得了良好的精度，模型参数更小，可以更好地满足实时性要求。

本文档来自技高网...

【技术保护点】

1.一种融合多尺度自注意力机制的无人驾驶环境感知方法，针对无人驾驶环境目标尺度多样不易识别的问题，首先将相同大小（即序列长度）的特征同时嵌入不同尺度的分支，然后通过多条分支独立地输入Transformer encoders，执行全局自注意力机制，然后对生成的局部特征和全局特征进行交互聚合，从而在同一特征级别上获得更丰富的语义信息；最后为适应无人驾驶硬件系统，本专利技术将改进的多尺度Transformer网络作为教师模型，以ResNet作为学生模型进行知识蒸馏，获得高精度的轻量化模型，其步骤如下：

2.依据权利要求1所述的融合多尺度自注意力机制的无人驾驶环境感知方法，其特征在于S1融合自注意力机制的多尺度检测网络的进一步实现如下：

【技术特征摘要】

1.一种融合多尺度自注意力机制的无人驾驶环境感知方法，针对无人驾驶环境目标尺度多样不易识别的问题，首先将相同大小（即序列长度）的特征同时嵌入不同尺度的分支，然后通过多条分支独立地输入transformer encoders，执行全局自注意力机制，然后对生成的局部特征和全局特征进行交互聚合，从而在同一特征级别上获得更丰富的...

【专利技术属性】
技术研发人员：李天敏，邵晨，张灿，郑晓君，
申请(专利权)人：北京算丰征途科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人