一种嵌入式系统实时物体6D位姿和距离估计方法技术方案

技术编号:37667590 阅读:31 留言:0更新日期:2023-05-26 04:27
本发明专利技术公开了一种嵌入式系统实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;本发明专利技术属于距离测测量、方位测量技术领域,具体为一种嵌入式系统实时物体6D位姿和距离估计方法,本发明专利技术的优点为:可以在小型嵌入式设备上实时进行目标检测任务;可以在小型嵌入式设备上实时进行物体6D位姿估计;可以在小型嵌入式设备上实时预测物体到相机的距离。时预测物体到相机的距离。时预测物体到相机的距离。

【技术实现步骤摘要】
一种嵌入式系统实时物体6D位姿和距离估计方法


[0001]本专利技术属于距离测测量、方位测量
,具体为一种嵌入式系统实时物体6D位姿和距离估计方法。

技术介绍

[0002]嵌入式系统由硬件和软件组成.是能够独立进行运作的器件。其软件内容只包括软件运行环境及其操作系统。硬件内容包括信号处理器、存储器、通信模块等在内的多方面的内容。相比于一般的计算机处理系统而言,嵌入式系统存在较大的差异性,它不能实现大容量的存储功能,因为没有与之相匹配的大容量介质,大部分采用的存储介质有E

PROM、EEPROM等,嵌入式系统具有可裁剪性、有统一的接口、操作方便、支持 TCP/IP 协议及其他协议和强稳定性等优点,但嵌入式系统具有资源有限,内核小,处理能力有限等缺点。
[0003]实时目标检测和6D姿态估计在增强现实、机器人技术和虚拟现实中广泛使用,物体的6D位姿估计是估计从物体坐标系O到相机坐标系C的刚性转换,包括3D的旋转R(根据物体的表面纹理信息影响物体外观)和3D平移T(T决定物体在图片中的位置和比例),6D位姿的求解根据输入的数据不同可分为三类,包括RGB图像输入、点云(point cloud)输入和RGB+点云输入,包含有点云输入的方法一般会使用RGBD相机,具有功耗大的特点,另外由于点云计算需要消耗更大的计算资源,因此不宜部署在嵌入式系统中。

技术实现思路

[0004](一)要解决的技术问题
[0005]为解决现有技术的上述问题,本专利技术提供一种嵌入式设系统时物体6D位姿估计方法,可以同时有效解决:
[0006](1)传统算法无法在小型嵌入式设备上实时进行目标检测任务;
[0007](2)传统算法无法在小型嵌入式设备上实时进行物体6D位姿估计;
[0008](3)传统算法无法在小型嵌入式设备上实时预测物体到相机的距离。
[0009](二)技术方案
[0010]为了解决上述问题,本专利技术采用的技术方案为:一种嵌入式系统实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;所述公共特征提取层的操作步骤中包括3种类型的操作,分别是Conv、DC2F和SPPFPro;对卷积核K的大小为3
×
3,跳转步长S为2,扩展像素P为1的卷积操作,可记为Conv:(k=3,s=2,p=1);对卷积核K的大小为1
×
1,跳转步长S为1,扩展像素P为0的卷积操作,可记为Conv:(k=1,s=1,p=0);进行Conv操作后,图像尺寸从W
×
W变为:
[0011][0012]上式中,W表示输入的图片的宽度(或高度),K表示卷积核大小,P表示扩展像素,S是跳转步长,N是输出图片的宽度(或高度);经验证,Conv操作可使图片的尺寸减少为原图
像尺寸的一半,也就是宽度变为原来的一半,高度变为原来的一半;
[0013]所述DC2F是在C2F基础上,为解决深度网络的梯度发散问题而提出的一种优化解决方案,所述DC2F包括分割、BottleNeck、通道合并和1
×
1卷积;所述DC2F的执行流程为:
[0014]S1、分割操作,所述DC2F的输入是尺寸为[H,W,C]的特征图像,分割操作是指,将所述分割为为两个尺寸均为[H,W,C/2]的特征图像,分别记为PL和PR;
[0015]S2、所述PL经过一次Bottleneck操作后得到特征图像PL2,所述特征图像PL2经过一次Bottleneck操作后得到特征图像PL3;
[0016]S3、所述PR经过一次Bottleneck操作后得到特征图像PR2,所述特征图像PR2经过一次Bottleneck操作后得到特征图像PR3;
[0017]S4、将特征图像PL3、PL3、PL2、PL、PR3、PR2和PR按照顺序进行通道合并;
[0018]S5、使用Conv(K=1,S=1,P=0)进行卷积操作,卷积核数量为C,从而使DC2F的输出与DC2F的输入具有相同的尺寸;
[0019]所述SPPFPro由SPPF改进而来,所述SPPFPro的操作流程如下:
[0020]S0、所述SPPFPro的输入为特征图像,记为SPPFPro_IN;
[0021]S1、对特征图像SPPFPro_IN进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro1;
[0022]S2、对SPPFPro1进行Maxpooling操作,所述Maxpooling为最大池化,所用池化核的大小为3
×
3,跳转步长S为1,扩展像素P为1,记为Maxpooling:(k=3,s=1,p=1),此步输出记为SPPFPro2,可以验证SPPFPro1与SPPFPro2具有相同的尺寸大小;
[0023]S3、对SPPFPro2进行Maxpooling操作,所用池化核的大小为5
×
5,跳转步长S为1,扩展像素P为2,记为Maxpooling:(k=5,s=1,p=2),此步输出记为SPPFPro3,可以验证SPPFPro1与SPPFPro3具有相同的尺寸大小;
[0024]S4、对SPPFPro3进行Maxpooling操作,所用池化核的大小为7
×
7,跳转步长S为1,扩展像素P为3,记为Maxpooling:(k=7,s=1,p=3),此步输出记为SPPFPro4,可以验证SPPFPro1与SPPFPro4具有相同的尺寸大小;
[0025]S5、对SPPFPro4进行Maxpooling操作,所用池化核的大小为9
×
9,跳转步长S为1,扩展像素P为4,记为Maxpooling:(k=9,s=1,p=4),此步输出记为SPPFPro5,可以验证SPPFPro1与SPPFPro5具有相同的尺寸大小;
[0026]S6、将特征图像SPPFPro1、SPPFPro2、SPPFPro3、SPPFPro4和SPPFPro5按照顺序进行通道合并操作得到SPPFPro6;
[0027]S7、对特征图像SPPFPro6进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro_OUT。
[0028]进一步地,所述RGB图像输入层的作用是将原始RGB图像输入到公共特征提取层中。
[0029]作为优选地,所述公共特征提取层的作用是提取不同尺度的图像特征,处理流程如下:
[0030]S1、接收RGB图像输入层传来的原始RGB图像,记为P0,P0的大小为[640,640,3];
[0031]S2、所述P0经过Conv:(k=3,s=2,p=1)操作,得到P1,P1的大小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌入式系统实时物体6D位姿和距离估计方法,包括RGB图像输入层、公共特征提取层、多尺度特征融合层、多头预测输出层、损失计算层和物体距离检测层;所述公共特征提取层的操作步骤中包括3种类型的操作,分别是Conv、DC2F和SPPFPro;对卷积核K的大小为3
×
3,跳转步长S为2,扩展像素P为1的卷积操作,可记为Conv:(k=3,s=2,p=1);对卷积核K的大小为1
×
1,跳转步长S为1,扩展像素P为0的卷积操作,可记为Conv:(k=1,s=1,p=0);进行Conv操作后,图像尺寸从W
×
W变为:上式中,W表示输入的图片的宽度(或高度),K表示卷积核大小,P表示扩展像素,S是跳转步长,N是输出图片的宽度(或高度);经验证,Conv操作可使图片的尺寸减少为原图像尺寸的一半,也就是宽度变为原来的一半,高度变为原来的一半;所述DC2F包括分割、BottleNeck、通道合并和1
×
1卷积;所述DC2F的执行流程为:S1、分割操作,所述DC2F的输入是尺寸为[H,W,C]的特征图像,分割操作是指,将所述分割为为两个尺寸均为[H,W,C/2]的特征图像,分别记为PL和PR;S2、所述PL经过一次Bottleneck操作后得到特征图像PL2,所述特征图像PL2经过一次Bottleneck操作后得到特征图像PL3;S3、所述PR经过一次Bottleneck操作后得到特征图像PR2,所述特征图像PR2经过一次Bottleneck操作后得到特征图像PR3;S4、将特征图像PL3、PL3、PL2、PL、PR3、PR2和PR按照顺序进行通道合并;S5、使用Conv(K=1,S=1,P=0)进行卷积操作,卷积核数量为C,从而使DC2F的输出与DC2F的输入具有相同的尺寸;所述SPPFPro由SPPF改进而来,所述SPPFPro的操作流程如下:S0、所述SPPFPro的输入为特征图像,记为SPPFPro_IN;S1、对特征图像SPPFPro_IN进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro1;S2、对SPPFPro1进行Maxpooling操作,所述Maxpooling为最大池化,所用池化核的大小为3
×
3,跳转步长S为1,扩展像素P为1,记为Maxpooling:(k=3,s=1,p=1),此步输出记为SPPFPro2,可以验证SPPFPro1与SPPFPro2具有相同的尺寸大小;S3、对SPPFPro2进行Maxpooling操作,所用池化核的大小为5
×
5,跳转步长S为1,扩展像素P为2,记为Maxpooling:(k=5,s=1,p=2),此步输出记为SPPFPro3,可以验证SPPFPro1与SPPFPro3具有相同的尺寸大小;S4、对SPPFPro3进行Maxpooling操作,所用池化核的大小为7
×
7,跳转步长S为1,扩展像素P为3,记为Maxpooling:(k=7,s=1,p=3),此步输出记为SPPFPro4,可以验证SPPFPro1与SPPFPro4具有相同的尺寸大小;S5、对SPPFPro4进行Maxpooling操作,所用池化核的大小为9
×
9,跳转步长S为1,扩展像素P为4,记为Maxpooling:(k=9,s=1,p=4),此步输出记为SPPFPro5,可以验证SPPFPro1与SPPFPro5具有相同的尺寸大小;S6、将特征图像SPPFPro1、SPPFPro2、SPPFPro3、SPPFPro4和SPPFPro5按照顺序进行通道合并操作得到SPPFPro6;
S7、对特征图像SPPFPro6进行卷积操作,所述卷积操作为Conv:(k=1,s=1,p=0),然后进行批归一化操作,并使用Silu激活函数进行非线性映射,得到输出为SPPFPro_OUT。2.根据权利要求1所述的一种嵌入式系统实时物体6D位姿和距离估计方法,其特征在于:所述多头预测输出层包括大尺度检测头、中尺度检测头和小尺度检测头,所述大尺度检测头的输入为P25,所述中尺度检测头的输入为P21,所述小尺度检测头的输入为P18,所述大尺度检测头、中尺度检测头和小尺度检测头具有相同的结构,此结构称为多任务解耦头结构,具体结构如下:S1、经过Conv:(k=1,s=1,p=0)操作,得到尺寸为[H,W,256]的特征图像Temp;S2、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到C1_Temp,所述C1_Temp的大小为[H,W,256],所述C1_Temp经过Conv:(k=1,s=1,p=0)操作,得到C2_Temp,所述C2_Temp的大小为[H,W,256],所述C2_Temp经过Conv:(k=1,s=1,p=0)操作,得到C_OUT,所述C_OUT的大小为[H,W,Anchor
×
C],其中Anchor为候选框个数,C为物体的分类类别数,此处的含义是包含有物体的条件下,属于某一类物体的概率,即为条件概率;S3、将特征图像Temp经过Conv:(k=1,s=1,p=0)操作,得到D1_Temp,所述D1_Temp的大小为[H,W,256],所述D1_Temp经过Conv:(k=1,s=1,p=0)操作,得到D2_Temp,所述D2_Temp的大小为[H,W,256],所述D2_...

【专利技术属性】
技术研发人员:梁媛媛李佳美杨逸芬邓晓露包兴鹏缪韵华唐菁雯周雯周军柏树春盛燕朱霖杨玲玲
申请(专利权)人:盐城数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1