一种用于目标定位和姿态估计的深度学习模型制造技术

技术编号:29967278 阅读:14 留言:0更新日期:2021-09-08 09:37
本发明专利技术提供一种深度学习模型,输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标在世界坐标系下的位置与姿态,对推进计算机视觉在机器人、自动驾驶等领域应用具有重要意义;与此同时,还提供了一种用于上述深度学习模型的训练样本生成方法,样本生成效率高,可以给该深度学习模型的训练提供充足的训练样本。习模型的训练提供充足的训练样本。习模型的训练提供充足的训练样本。

【技术实现步骤摘要】
一种用于目标定位和姿态估计的深度学习模型


[0001]本专利技术涉及深度学习
,尤其是一种用于目标定位和姿态估计的深度学习模型。

技术介绍

[0002]目标检测是计算机视觉领域中的经典问题,它将图像分割与目标识别两个任务合二为一个,直接从图像中识别出目标的位置和种类。目前,深度学习技术已经成为实现目标检测任务的主流方法。基于深度学习模型的目标检测算法在精度上已经远远超越了传统的计算机视觉算法。常用于目标检测的深度学习模型包括Fast RCNN、Faster RCNN、SSD、Yolo等。
[0003]然而,目前的深度学习模型仅能计算目标在二维图像中的位置,不能给出目标在世界坐标系下的位置以及绕X、Y、Z轴的旋转角度(即姿态),而目标在世界坐标系下的位置和姿态,对机器人、自动驾驶等领域具有重要意义,也是计算机视觉的最终目标之一。目前,通过二维图像得到目标在世界坐标系下的位置,传统计算机视觉领域一般采用特征点匹配的方法,该方法的基础是物体成像公式其中x、y为空间中某点在相机拍摄形成的二维图像中的坐标,u、v、w为该点在三维空间世界坐标系中的坐标,代表相机的内参矩阵,代表由世界坐标系变换至相机坐标系需要进行的旋转和平移变换,代表由世界坐标系中的坐标变换至图像坐标系中所需要进行的变换,称为单应变换矩阵。
[0004]传统计算机视觉方法通过提取出图像的SIFT或SURF等特征点,与目标在特定已知位置下的图像进行特征点匹配,再利用RANSAC方法进行筛选,得到符合某单应变换矩阵的匹配内点,再利用这些内点估计得到目标图像相对于已知位置的图像的单应变换矩阵。传统方法缺点在于不是端到端的方法,需要进行大量数学计算和调整参数。当目标在图像中比较小时,从整个图像中提取的特征点会掩盖目标的特征点信息,导致匹配失败。
[0005]针对常规深度学习模型和传统计算机视觉方法在识别目标在世界坐标系下的位置和姿态方面的不足,行业内诸多研究人员进行了探索。
[0006]PoseNet是剑桥大学Alex Kendall等人提出的深度学习模型,可以从二维图像中
得到相机的位置和姿态,但不能得到二维图像中目标物体在世界坐标系下的位置和姿态信息。
[0007]美国学者Arun CS Kumar等人提出DepthNet,该深度学习模型可以从双目摄像头输入的两张输入图像中得到图像中每个像素对应的深度信息,即相对于相机的距离信息。显然,该模型给出一些关于图像的三维空间信息,但并不能识别图像中的目标,并给出该目标在世界坐标系下的位置和姿态信息。
[0008]德国学者Philipp Fischer等人提出FlowNet,该深度学习模型以视频中的连续两张图像作为输入,可以给出图像中每个像素的光流信息,即对每个像素的运动方向与速度进行预测。显然,该模型也不能给出目标在世界坐标系下的位置和姿态信息。
[0009]国家知识产权局于2019年7年5年公开的专利技术专利申请CN109977945A——《基于深度学习的定位方法和系统》提出的深度学习模型可以给出物体在二维图像中的位置,以及在二维图像中包围目标的最小矩阵和最小旋转包围矩形信息,仍然不是在世界坐标系下的位置和姿态信息。
[0010]国家知识产权局于2018年12月28日公开的专利技术专利申请CN109101966A——《基于深度学习的工件识别定位和姿态估计系统和方法》提出的深度学习模型可以给出目标在二维图像中的中心位置、宽、高,以及绕三维空间坐标系统X、Y、Z轴旋转的角度信息,但并未给出目标在世界坐标系下的位置信息。
[0011]国家知识产权局于2019年12月17日公开的专利技术专利申请CN110580723A——《一种利用深度学习和计算机视觉进行精准定位的方法》提出利用常规的用于目标检测的深度学习模型来识别目标在二维图像中的位置,然后把这部分图像截取出来,采取传统计算机视觉方法估计出目标的空间位置。此方法中的深度学习模型仅仅用来识别目标在二维图像中的位置,仍然要采用传统计算机视觉方法来估计出目标的空间位置。
[0012]国家知识产权局于2019年2月16日授权公告的专利技术专利CN106023211B——《基于深度学习的机器人图像定位方法及系统》提出利用深度学习模型提取二维图像的特征信息,再基于这些特征信息进行匹配,通过传统计算机视觉方法得到机器人的运动轨迹。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。
[0013]国家知识产权局于2020年7月14日公开的专利技术专利申请CN111415384A——《一种基于深度学习的工业图像组件精准定位系统》提出利用深度学习模型得到二维图像中工业组件的角点位置信息,再基于这些角点位置信息,得到工件的位置。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。

技术实现思路

[0014]针对现有技术中缺少能够直接从二维图像中识别出目标在世界坐标系下的位置和姿态信息的深度学习模型,本专利技术提出一种用于目标定位和姿态估计的深度学习模型。
[0015]一种用于目标定位和姿态估计的深度学习模型,向该深度学习模型输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标物体在世界坐标系下的位置与姿态;
[0016]该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成;特征提取模块提取图像信息形成特征图金字塔;空间定位模块为每层特征图
中的每个点生成一个虚拟锚框,并根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度,选择重叠度高的锚框输出进行训练;
[0017]空间定位模块为每层特征图中的每个点形成多个输出作为训练目标,其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息,目标物体在世界坐标系下的位置信息与姿态信息,以及目标物体的类别概率信息。该深度学习模型在训练完成后方可执行目标定位和姿态估计任务。执行目标定位和姿态估计任务时,选择每层特征图的每个位置的输出中属于任一类别概率超过预设阈值的输出,进行非极大值抑制后,作为整个模型的最终输出,该输出代表模型从输入的二维图像中识别出的目标物体信息。
[0018]进一步的,最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值;目标的位置信息为中心在特征图该点代表的锚框内的目标在世界坐标系中的X、Y、Z轴坐标,目标的姿态信息为中心在特征图该点代表的锚框内的目标相对于世界坐标系X、Y、Z轴的旋转角度;目标的类别概率信息为经过softmax函数输出的目标物体为某个类别的概率。
[0019]进一步的,每层特征提取模块由多个特征提取单元构成。
[0020]进一步的,空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成,每个运算单元通过神经网络对每层特征图进行运算,得到与该层特征图维度相同的多通道输出,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于目标定位和姿态估计的深度学习模型,其特征在于,向该深度学习模型输入二维图像,输出二维图像中目标物体的类别及其在该图像中的最小包围矩形,以及该目标物体在世界坐标系下的位置与姿态;该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成;特征提取模块提取图像信息形成特征图金字塔;空间定位模块为每层特征图中的每个点生成一个虚拟锚框,并输出该虚拟锚框中目标物体在二维图像中的最小包围矩形信息,该目标物体在世界坐标系下的位置信息与姿态信息,以及该目标物体的类别概率信息。对该深度学习模型进行训练时,根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度,选择重叠度高的锚框输出进行训练。该深度学习模型执行目标定位和姿态估计任务时,空间定位模块为每层特征图中的每个点形成多个输出,其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息,该目标物体在世界坐标系下的位置信息与姿态信息,以及该目标物体的类别概率信息。选择所有特征图的所有位置的类别输出中属于任一类别概率超过预设阈值的输出,进行非极大值抑制后,作为整个模型的最终输出,该输出代表模型从输入的二维图像中识别出的目标物体信息。2.根据权利要求1所述的用于目标定位和姿态估计的深度学习模型,其特征在于,最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值;目标的位置信息为目标物体在世界坐标系下的X、Y、Z轴坐标,目标的姿态信息为目标物体相于世界坐标系X、Y、Z轴的旋转角度;目标的类别概率信息为经过softmax函数输出的目标为某个类别的概率。3.根据权利要求2所述的用于目标定位和姿态估计的深度学习模型,其特征在于,每层特征提取模块由多个特征提取单元构成。4.根据权利要求1

3任意一项所述的用于目标定位和姿态估计的深度学习模型,其特征在于,空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成,每个运算单元通过神经网络对每层特征图进行运算,得到与该层特征图维度相同的多通道输出,包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出。5.根据权利要求4所述的用于目标定位和姿态估计的深度学习模型,其特征在于,当对该深度学习模型进行训练时,该深度学习模型的总误差L=λ
...

【专利技术属性】
技术研发人员:林广栋王强黄光红
申请(专利权)人:安徽芯纪元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1