用于处理图像和确定对象的视点的方法和系统技术方案

技术编号:24421666 阅读:31 留言:0更新日期:2020-06-06 14:25
一种用于处理图像的系统和方法,包括将图像输入到神经网络(1),神经网络被配置为:获得(2)多个特征图(4a,…,4f),每个特征图具有相应的分辨率和相应的深度;在每个特征图上执行(3)分类,以对于每个特征图,实现:‑在图像上可见的至少一个对象的类型,‑围绕至少一个对象的至少一个二维边界框的图像中的位置和形状,‑对于至少一个对象的至少一个可能的视点,‑对于至少一个对象的至少一个可能的面内旋转。

Methods and systems for processing images and determining the viewpoint of objects

【技术实现步骤摘要】
【国外来华专利技术】用于处理图像和确定对象的视点的方法和系统
本公开涉及图像处理领域,并且更确切地涉及图像上三维对象的检测。
技术介绍
已经提出了在由相机获取的图像上检测三维对象。通常,还希望获得图像上可见对象的6D姿态。“6D姿态”是本领域技术人员众所周知的指定对象的三维位置和三维方向的组合的表达。检测对象的已知方法并不令人满意。例如,已知方法可能要求使用深度信息(例如,使用本领域技术人员称为“RGB-D”或“RGB-Depth”的图像)。已知方法也可能无法检测到特定对象,诸如具有麻烦的几何形状或纹理的对象,或者甚至小对象。一些方法提供关于视点(在图像上看到对象的角度)或6D姿态的非常粗糙的信息。例如,一些方法仅指示从侧面或下方看到对象。因此,需要改进的方法以处理图像,尤其是检测对象及其视点。从现有技术中,已知以下文献:-A.Mousavian、D.Anguelov、J.Flynn和J.Kosecka。“3DBoundingBoxEstimationUsingDeepLearningandGeometry(使用深度学习和几何的3D边界框估计)”。arXiv:1612.00496,2016。-P.Poirson、P.Ammirato、C.-Y.Fu、W.Liu、J.Kosecka和A.C.Berg。“FastSingleShotDetectionandPoseEstimation(快速单发检测和姿态估计)”。In3DV,2016。-W.Liu、D.Anguelov、D.Erhan、C.Szegedy、S.Reed、C.-y.Fu、和A.C.Berg。“SSD:SingleShotMultiBoxDetector(SSD:单发MultiBox检测器)”。InECCV,2016。
技术实现思路
本公开通过提出用于处理图像的方法克服现有技术的一个或更多个缺陷,该方法包括将图像输入神经网络,该神经网络被配置为:获得多个特征图,每个特征图具有相应分辨率和相应深度,对每个特征图执行分类,以对于每个特征图,实现(deliver):-在图像上可见的至少一个对象(一个或多个对象)的类型,-围绕至少一个对象的至少一个二维边界框的图像中的位置和形状,-对于至少一个对象的至少一个可能的视点,-对于至少一个对象的至少一个可能的面内旋转。举例来说,图像可以是彩色图像,诸如技术人员已知的RGB(红-绿-蓝)图像。特征图是向量的矩阵,表达分辨率针对于矩阵的分辨率并且深度与矩阵的向量的深度有关。在本申请中使用的表达“神经网络”可以覆盖多个已知网络的组合。例如,可以使用第一子网来执行获得多个特征图的步骤。技术人员将知道使用哪个子网以获得具有相应的分辨率和相应的深度的特征图。执行分类的步骤也可以由第二子网执行。对于每个特征图,技术人员将知道使用哪个子网以实现:-在图像上可见的至少一个对象的类型,-围绕至少一个对象的至少一个二维边界框的图像中的位置和形状,-对于至少一个对象的至少一个可能的视点,-对于至少一个对象的至少一个可能的面内旋转。应当注意的是技术人员知道边界框是具有包围对象的坐标的虚拟矩形。如果确定了多个对象则每个对象与至少一个边界框相关联。边界框可以从多个预定的边界框中选择;分类步骤被配置成确定最佳边界框(即,最接近对象的边界框)。在可以检测到的预定的对象组中选择对象的类型。视点是从图像上看到对象的角度,例如从参考角度测量。面内旋转是围绕图像获取模块或相机的光轴的旋转,用于获取图像。举例来说,神经网络可以输出更多个信息组中的一组,每组与图像上可见的对象相关联,每组包括对象的类型、围绕对象的边界框的位置和形状、视点以及面内旋转。如果在图像上可见多个对象,那么,神经网络可以输出至少两个如以上定义的信息组。而且,神经网络可以输出用于相同对象的两组或更多组信息,例如,在与视点有关的两组之间具有差异。应当注意的是使用所述神经网络允许使用大规模并行单通网络,使计算速度极大地提高(已经观察到上述方法在10Hz附近工作,即每秒10张图像),并且允许获得良好的精度。此外,通过执行实现可能的视点的分类,能够在预定的视点组中选择视点。因此,这允许获得由网络预测的视角的改善精度。例如,可以以5度或更小的量级的精度来确定视角。根据实施例,图像是彩色图像(例如,RGB图像),或者是彩色和深度图像(例如,RGB-D图像)。应当注意的是深度的使用提高了方法的准确性。根据实施例,借助于内核感知器执行分类。根据实施例,获得多于两个特征图,或者获得六个特征图,每个特征图具有不同的分辨率。本专利技术的专利技术人已经观察到利用六个特征图获得良好的结果。使用变化的分辨率(以及至少一些特征图的深度)允许处理图像上可见的不同比例的对象。根据实施例,方法进一步包括使用对于至少一个对象的至少一个可能的视点,以及对于至少一个对象的至少一个可能的面内旋转来获得至少一个对象的6D姿态。已经观察到的是能够解析神经网络的输出以便获得至少一个对象的6D姿态。最为显著地,应当注意的是获得视点和面内旋转允许获得6D姿态。举例来说,能够对视点和面内旋转执行分类以便获得平移矩阵和旋转矩阵形式的6D姿态。根据实施例,获得6D姿态进一步包括使用基于颜色的方法、或基于轮廓的方法或基于深度的方法来改善6D姿态。例如,基于深度的方法可以使用ICP(迭代最近点)方法。如果使用RGB图像,那么,能够渲染(render)对象以便验证其与图像上最初呈现的对象对齐。根据实施例,方法进一步包括神经网络的初步训练,所述初步训练包括输入其中至少一个三维模板对象已经被渲染到神经网络的模板图像。渲染三维模板对象意指详细说明该模板对象的投影以选定的角度可见的图像。优选地,方法将用于包括已被用作模板对象的对象的图像上。通过使用所述渲染,能够更好地处理对称对象以消除由于对称而导致的视点混乱。根据实施例,所述初步训练进一步包括:使用所述神经网络来获得:-在模板图像上可见的至少一个模板对象的类型,-围绕至少一个对象的至少一个二维边界框的模板图像中的位置和形状,-对于至少一个模板对象的至少一个可能的视点,-对于至少一个模板对象的至少一个可能的面内旋转,并且在以下等式中最小化L:其中:Pos表示具有包围模板对象的预定义部分面积的面积的边界框,Neg表示具有不包围模板对象的预定义部分面积的面积的边界框,b是属于Pos或Neg的边界框,Lclass是与归因于分类的误差相关联的损失,Lfit是与边界框的角的位置的误差相关联的损失,Lview是与归因于视点的误差相关联的损失,Linplane是与归因于面内旋转的误差相关联的损失,本文档来自技高网
...

【技术保护点】
1.一种用于处理图像的方法,所述方法包括将所述图像输入到神经网络(1),所述神经网络被配置成:/n获得(2)多个特征图(4a、…、4f),每个特征图具有相应的分辨率和相应的深度,/n对每个特征图执行(3)分类,以对于每个特征图,实现:/n-在所述图像上可见的至少一个对象的类型,/n-围绕所述至少一个对象的至少一个二维边界框的所述图像中的位置和形状,/n-对于所述至少一个对象的至少一个可能的视点,/n-对于所述至少一个对象的至少一个可能的面内旋转。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于处理图像的方法,所述方法包括将所述图像输入到神经网络(1),所述神经网络被配置成:
获得(2)多个特征图(4a、…、4f),每个特征图具有相应的分辨率和相应的深度,
对每个特征图执行(3)分类,以对于每个特征图,实现:
-在所述图像上可见的至少一个对象的类型,
-围绕所述至少一个对象的至少一个二维边界框的所述图像中的位置和形状,
-对于所述至少一个对象的至少一个可能的视点,
-对于所述至少一个对象的至少一个可能的面内旋转。


2.根据权利要求1所述的方法,其中,所述图像是彩色图像,或者是彩色和深度图像。


3.根据权利要求1或2所述的方法,其中,借助于内核感知器(3)执行所述分类。


4.根据权利要求1至3中的任意一项所述的方法,其中,获得多于两个特征图,或者获得六个特征图(4a、…、4f),所述特征图每个都具有不同的分辨率。


5.根据权利要求1至4中的任意一项所述的方法,进一步包括使用用于至少一个对象的所述至少一个可能的视点,以及用于所述至少一个对象的所述至少一个可能的面内旋转,来获得所述至少一个对象的6D姿态。


6.根据权利要求5所述的方法,其中,获得所述6D姿态进一步包括使用基于颜色的方法、或者基于轮廓的方法、或者基于深度的方法来改善所述6D姿态。


7.根据权利要求1至6中的任意一项所述的方法,进一步包括所述神经网络的初步训练,所述初步训练包括输入模板图像,其中,至少一个三维模板对象已被渲染到所述神经网络。


8.根据权利要求7所述的方法,其中,所述初步训练进一步包括:
使用所述神经网络,获得:
-在所述模板图像上可见的至少一个模板对象的类型,
-围绕所述至少一个对象的至少一个二维边界框的所述模板图像中的位置和形状,
-对于所述至少一个模板对象的至少一个可能的视点,
-对于所述至少一个模板对象的至少一个可能的面内旋转,
并且在以下等式中最小化L:



其中:
Pos表示具有包围模板对象的预定义部分面积的面积的所述边界框,
Neg表示具有不包围模板对象的预定义部分面积的面积的所述边界框,
b是属于Pos或Neg的边界框,
Lclass是与归因于分类的误差相关联的损...

【专利技术属性】
技术研发人员:斯文·迈尔诺里马萨·科博里瓦迪姆·克尔法比安·曼哈特费德里科·汤巴里
申请(专利权)人:丰田自动车欧洲公司
类型:发明
国别省市:比利时;BE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1