【技术实现步骤摘要】
一种基于自注意力的轻量化三维目标实时检测方法及装置
[0001]本申请涉及自动驾驶
,尤其是涉及一种基于自注意力的轻量化三维目标实时检测方法及装置。
技术介绍
[0002]三维目标检测旨在识别和定位3D场景中的目标。3D场景有很多数据类型进行表达,如点云、体素、多视图等。随着深度学习技术的发展,研究人员针对每种数据类型均进行了探究。随着探索的深入,研究人员发现点云数据无需对原始的采集数据(通过深度相机与激光雷达采集)进行复杂的预处理,从而保留了足够多的细节信息。
[0003]传统的三维目标检测网络(如VoteNet),需要手工设定大量的超参数(如搜索半径)且模型结构复杂,操作复杂且计算量大,无法满足实时自动驾驶任务。
技术实现思路
[0004]有鉴于此,本申请提供了一种基于自注意力的轻量化三维目标实时检测方法及装置,以解决上述技术问题。
[0005]第一方面,本申请实施例提供一种基于自注意力的轻量化三维目标实时检测方法,包括:
[0006]获取点云数据的N个点的三维坐标,生成N个点的三维点云特征;
[0007]利用预先训练完成的局部特征提取模型对N个点的三维点云特征进行处理,得到N个点的局部点云特征;
[0008]利用预先训练完成的第一全局特征提取模型对N个点的局部点云特征进行处理,得到N个点的第一全局点云特征;
[0009]使用最远点采样策略从点云数据获取B个点,从第一全局点云特征中提取出B个点的第二全局点云特征;
[0010]利用预先训 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于自注意力的轻量化三维目标实时检测方法,其特征在于,包括:获取点云数据的N个点的三维坐标,生成N个点的三维点云特征;利用预先训练完成的局部特征提取模型对N个点的三维点云特征进行处理,得到N个点的局部点云特征;利用预先训练完成的第一全局特征提取模型对N个点的局部点云特征进行处理,得到N个点的第一全局点云特征;使用最远点采样策略从点云数据获取B个点,从第一全局点云特征中提取出B个点的第二全局点云特征;利用预先训练完成的第二全局特征提取模型对N个点的第一全局点云特征和B个点的第二全局点云特征进行处理,得到B个点的第三全局点云特征;利用预先训练完成的目标检测模型对B个点的第三全局点云特征进行处理,得到目标检测结果,所述目标检测结果包括三维目标检测框的中心点坐标、三维目标检测框的长、宽和高、三维目标检测框的角度类别、三维目标检测框的角度偏差以及三维目标检测框的类别。2.根据权利要求1所述的方法,其特征在于,所述局部特征提取模型包括三个依次连接的第一多层感知机、第二多层感知机和第三多层感知机;利用预先训练完成的局部特征提取模型对N个点的三维点云特征进行处理,得到N个点的局部点云特征;包括:利用所述第一多层感知机将N个点的三维点云特征F升维至64维;利用所述第二多层感知机将N个点的64维点云特征升维至128维;利用所述第三多层感知机将N个点的128维点云特征升维至256维,得到N个点的256维点云特征F
e
。3.根据权利要求2所述的方法,其特征在于,所述第一全局特征提取模型采用Transformer网络,包括三个并行的第五多层感知机、第六多层感知机和第七多层感知机、第一softmax层、第八多层感知机、第一归一化层、第一拼接单元、第九多层感知机、第二归一化层和第一加法器;利用预先训练完成的第一全局特征提取模型对N个点的局部点云特征进行处理,得到N个点的第一全局点云特征;包括:利用所述第五多层感知机将256维点云特征F
e
映射为256维张量Q1;利用所述第六多层感知机将256维点云特征F
e
映射为256维张量K1;利用所述第七多层感知机将256维点云特征F
e
映射为256维张量V1;利用所述第一softmax层计算第一注意力张量M1:其中,d=256;利用所述第八多层感知机将第一注意力张量M1映射为256维张量D1;利用所述第一归一化层对256维张量D1进行数值归一化处理;利用所述第一拼接单元将归一化的256维张量D1和256维点云特征F
e
拼接在一起,形成
512维张量E1;利用所述第九多层感知机将512维张量E1映射为256维张量G1;利用所述第二归一化层对256维张量G1进行数值归一化处理;利用所述第一加法器将归一化的256维张量G1和256维特征F
e
进行相加,得到N个点的256维第一全局点云特征F
et
。4.根据权利要求3所述的方法,其特征在于,所述第二全局特征提取模块采用Transformer网络,包括三个并行的第十多层感知机、第十一多层感知机和第十二多层感知机、第二sfotmax层、第十三多层感知机、第三归一化层、第二拼接单元、第十四多层感知机、第四归一化层和第二加法器;利用预先训练完成的第二全局特征提取模型对N个点的第一全局点云特征和B个点的第二全局点云特征进行处理,得到B个点的第三全局点云特征;包括:利用所述第十多层感知机将B个点的第二全局点云特征F
de
映射为256维张量Q2;利用所述第十一多层感知机将N个点的256维第一全局点云特征F
et
映射为256维张量K2;利用所述第十二多层感知机将N个点的256维第一全局点云特征F
et
映射为256维张量V2;利用所述第二softmax层计算第二注意力张量M2:利用所述第十三多层感知机将第二注意力张量M2映射为256维张量D2;利用所述第三归一化层对256维张量D2进行数值归一化处理;利用所述第二拼接单元将归一化的256维张量D2和B个点的第二全局点云特征F
de
拼接在一起,形成512维张量E2;利用所述第十四多层感知机将512维张量E2映射为256维张量G2;利用所述第四归一化层对256维张量G2进行数值归一化处理;利用所述第二加法器将归一化的256维张量G2和B个点的第二全局点云特征F
de
进行相加,得到B个点的第三全局点云特征F
det
。5.根据权利要求4所述的方法,其特征在于,所述目标检测模型包括:五个并行的第十五多层感知机、十六多层感知机、十七多层感知机、十八多层感知机和第十九多层感知机;利用预先训练完成的目标检测模型对B个点的第三全局点云特征进行处理,得到目标检测结果,包括:利用所述第十五多层感知机对B个点的第三全局点云特征F
det
进行处理,得到三维目标检测框的中心点坐标;利用所述第十六多层感知机对B个点的第三全局点云特征F
det
进行处理,得到三维目标检测框的长、宽和高;利用所述第十七多层感知机对B个点的第三全局点云特征F
det
进行处理,得到三维目标检测框的角度类别,其中,当三维目标预测框的角度属于[0,30
°
),角度类别为第一类;当三维目标预测框的角度属于[30
°
,60
°
),角度类别为第二类;当三维目标预测框的角度属于
[60
°
,90
°
),角度类别为第三类;当三维目标预测框的角度属于[90
°
,120
°
),角度类别为第四类;当三维目标预测框的角度属于[120
技术研发人员:王力,谢涛,戴崑,蒋志强,
申请(专利权)人:苏州驾驶宝智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。