【技术实现步骤摘要】
图像的鸟瞰视角特征编码方法、系统、设备及存储介质
[0001]本专利技术属于图像处理
,具体涉及一种图像的鸟瞰视角特征编码方法、系统、设备及存储介质。
技术介绍
[0002]在车上的不同位置安装多台相机,获取不同相机的图像并提取深度学习特征,将提取的特征都转换到鸟瞰图的视角上面,我们把转换到鸟瞰图视角的特征称为BEV(bird
’
s eye view)特征。
[0003]目前,传统的方法是将多个相机的图像进行逆透视变换,然后拼接生成鸟瞰图,之后把鸟瞰图送入深度学习网络,得到BEV特征。但该方法存在以下问题:
[0004](1)在两个相机的FOV(Field of View,视场角)交界处,由于逆透视变换在拼接时存在误差,导致FOV交界处的图像质量差,影响后面特征提取的性能;
[0005](2)在逆透视变换中,高于地面的物体投影到地面后会造成错误的投影,与实际的情况不符合,例如一个柱子,投影到鸟瞰图后理论上应该是一个点,但是实际情况是,不知道柱子遮挡后方的实际情况,通过插值算法, ...
【技术保护点】
【技术特征摘要】
1.一种图像的鸟瞰视角特征编码方法,其特征在于,包括以下步骤:获取当前的多个相机视角图像;通过多尺度的骨干网络,得到当前的多个相机视角图像的特征图;通过记忆模块对得到的特征图进行重构,得到重构后的特征图;重构后的特征图包含更多关于正常帧的信息,使得异常帧得到较大的重构误差;记忆模块用于增强记忆正常帧信息的能力;基于前后时刻的相机视角图像,通过SFM得到相机的运动信息;定义一组维度为H*W*C的可学习的张量参数作为BEV_Map,以捕获BEV特征;构建基于Transformer机制的空间融合模块,该模块包括前后相连的自注意力层和前馈神经网络,其中自注意力层包括多头自注意力层和空间交叉注意力层,所定义的BEV_Map特征输入至多头自注意力层,所有相机重构后的特征图输入至空间交叉注意力层;基于Transformer机制的空间融合模块在空间序列上将所有相机的视角图像进行融合,并转换到BEV空间,完成空间的特征聚合,得到当前的BEV特征;构建基于ConvGRU的时序融合模块,该模块利用得到的相机的运动信息对历史的BEV特征进行投影变换,然后利用ConvGRU网络将投影变换后的历史的BEV特征和当前的BEV特征在时间序列上进行融合,完成时序的特征聚合,得到最终的BEV特征。2.根据权利要求1所述的图像的鸟瞰视角特征编码方法,其特征在于,将最终的BEV特征传递给下游的任务端以实现各种任务,包括目标检测和语义分割。3.根据权利要求1所述的图像的鸟瞰视角特征编码方法,其特征在于,空间交叉注意力层使BEV_Map从多相机的特征中通过注意力机制提取所需的BEV特征,具体如下:对于在BEV_Map中每一个位于(x,y)位置的高分辨率的BEV特征,计算其对应现实世界的坐标(x',y'),然后将BEV_Map进行提升维度的操作,获取其在z轴上的多个3D points;通过相机内外参,获取3D points在多尺度的骨干网络输出的特征平面上的投影点P_projection;以BEV_Map中每一个点对应的特征平面的投影点P_projection作为参考点,在多尺度的骨干网络输出的特征周围进行特征采样,加权更新BEV_Map。4.根据权利要求1所述的图像的鸟瞰视角特征编码方法,其特征在于,时序的特征聚合具体为:基于SFM得到的相机的运动信息,即x和y方向的位移,将历史的BEV_Map特征和当前的BEV_Map特征对齐,确保同一位置的特征均对应于现实世界的同一位置:历史BEV_Map_投影=投影(历史BEV_Map,SFM)式中,SFM表示运动信息,投影()表示投影变换,历史BEV_Map_投影表示投影变换后的BEV_Map特征;当前的BEV_Map特征传递给ConvGRU网络,与经过投影变换后的BEV_Map特征融合:BEV_Map_out=GRU(历史BEV_Map_投影,BEV_Map_in)式中,BEV_Map_in表示当前的BEV_Map特征,GRU()表示ConvGRU网络,BEV_Map_out表示最终的BEV特征。5.一种图像的鸟瞰视角特征编码系统,其特征在于,包括:图像获取模块,用于获取当前的多个相机视角图像;特征提取模块,用于通过多尺度的骨干网络,得到当前的多个相机视角图像的特征图;
特征重构模块,用于通过记忆模块对得到的特征图进行重构,得到重构后的特征图;重构后的特征图包含更...
【专利技术属性】
技术研发人员:严义雄,庹新娟,朱亚坤,刘义军,余杰,
申请(专利权)人:东风汽车集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。