基于RGB图像和坐标系变换的物体6D姿势预测方法技术

技术编号:23052139 阅读:50 留言:0更新日期:2020-01-07 15:05
本发明专利技术公开了一种基于RGB图像和坐标系变换的物体6D姿势预测方法。将物体6D姿势参数进行解耦,通过解决六个参数求解问题实现物体6D姿势预测。本作品通过定位图像中物体中心及估计它与相机的距离来预测物体的3D平移。通过坐标系变换将预测物体的3D旋转转化为预测相机的位姿,再将相机位姿参数解耦为方位角、仰角、绕主光轴的旋转角,通过对这三个参数进行预测,从而间接实现对物体的3D旋转预测。本发明专利技术提出了一个对于物体6D姿势预测通用的框架,实现从一张RGB图像中同时进行2D目标检测和6D姿势预测,对光照条件复杂、摆放混乱、物体之间相互遮挡等情况都有较好的鲁棒性。

6D pose prediction method based on RGB image and coordinate system transformation

【技术实现步骤摘要】
基于RGB图像和坐标系变换的物体6D姿势预测方法
本专利技术属于物体目标检测和姿势预测领域,具体涉及一种基于RGB图像和坐标系变换的物体6D姿势预测方法,强调只使用RGB信息同时进行2D目标检测和6D姿势预测,对物体相互遮挡、杂乱摆放、光照条件复杂等情况具有较好的鲁棒性。
技术介绍
目前,物体目标检测及其6D姿势(3D平移和3D旋转)预测是计算机视觉领域的一个研究热点,在增强现实、机器人作业、无人驾驶等方面都有着重要的应用。然而由于实际场景中存在物体之间相互遮挡、杂乱摆放、光照条件复杂等情况,6D姿势预测问题仍然是一个具有挑战性的问题。目前6D姿势预测方法主要有模板匹配和基于特征学习。模板匹配使用固定的模板对输入图片的不同位置进行滑动窗口扫描,得到不同位置的相似度得分,通过比较这些相似度得分获得最佳匹配结果,但无法处理物体之间遮挡、光照条件十分苛刻的情况;基于特征学习的方法通过提取图像中的局部特征和3D模型的特征建立2D-3D对应,获得6D姿势,该类方法需要足够多的纹理来计算局部特征,且在处理对称的物体会遭遇歧义。现有的方法主要依赖于R本文档来自技高网...

【技术保护点】
1.一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于包括以下步骤:/n1)对多个不同物体进行3D扫描获得多个3D模型,基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集,训练数据集包括多张RGB图像,每张RGB图像中包含的物体种类数以及各类物体数量均随机生成,再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景;/n2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息,矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸;相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得...

【技术特征摘要】
1.一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于包括以下步骤:
1)对多个不同物体进行3D扫描获得多个3D模型,基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集,训练数据集包括多张RGB图像,每张RGB图像中包含的物体种类数以及各类物体数量均随机生成,再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景;
2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息,矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸;相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿。
3)建立Faster-R-CNN目标检测网络模型作为物体平移预测网络,将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息,计算预测矩形框信息与矩形框标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练;
4)建立ResNet50网络模型作为相机位姿预测网络,将RGB图像中的所有矩形框(2Dboundingbox)切割出图像外作为感兴趣区域(RoIs),将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强,数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息,计算相机位姿预测信息与相机位姿标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练;
5)将待测物体放置在摄像头的视场内,摄像头与虚拟相机的内参相同,摄像头获取待测物体运动的视频流,将视频流的逐帧图像进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息,根据预测矩形框信息获得待测物体的平移信息;再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息,将相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息。


2.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:所述的步骤3)中,对训练数据集进行数据增强具体是指:随机改变RGB图像的对比度、饱和度、色调、颜色空间转换,随机进行均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转,以模拟复杂的现实环境;所述的步骤4)中所述的对训练数据集...

【专利技术属性】
技术研发人员:李霖烨田秋红
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1