物体姿态的检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:31382004 阅读:28 留言:0更新日期:2021-12-15 11:31
本申请实施例提供了一种物体姿态的检测方法、装置、计算机设备和存储介质,该方法包括:获取图像数据,图像数据中具有目标物体,将图像数据输入二维检测模型中,检测三维的边界框投影至图像数据时的二维的第一姿态信息,边界框用于检测目标物体,将第一姿态信息映射为三维的第二姿态信息,根据第二姿态信息检测目标物体的第三姿态信息。标物体的第三姿态信息。标物体的第三姿态信息。

【技术实现步骤摘要】
【国外来华专利技术】物体姿态的检测方法、装置、计算机设备和存储介质


[0001]本申请实施例涉及计算机视觉的
,例如涉及一种物体姿态的检测方法、装置、计算机设备和存储介质。

技术介绍

[0002]在短视频、直播、自动驾驶、AR(Augmented Reality,增强现实)、机器人等业务场景中,通常会进行3D(3

dimension,三维)目标检测,及对作为目标的物体检测物体在三维空间的信息,进行添加特效、路线规划、运动轨迹规划等业务处理。

技术实现思路

[0003]本申请实施例提出了一种物体姿态的检测方法、装置、计算机设备和存储介质。
[0004]第一方面,本申请实施例提供了一种物体姿态的检测方法,包括:
[0005]获取图像数据,所述图像数据中具有目标物体;
[0006]将所述图像数据输入二维检测模型中,检测三维的边界框投影至所述图像数据时的二维的第一姿态信息,所述边界框用于检测所述目标物体;
[0007]将所述第一姿态信息映射为三维的第二姿态信息;
[0008]根据所述第二姿态信息检测所述目标物体的第三姿态信息。
[0009]第二方面,本申请实施例还提供了一种物体姿态的检测装置,包括:
[0010]图像数据获取模块,设置为获取图像数据,所述图像数据中具有目标物体;
[0011]第一姿态信息检测模块,设置为将所述图像数据输入二维检测模型中,检测三维的边界框投影至所述图像数据时的二维的第一姿态信息,所述边界框用于检测所述目标物体;
[0012]第二姿态信息映射模块,设置为将所述第一姿态信息映射为三维的第二姿态信息;
[0013]第三姿态信息检测模块,设置为根据所述第二姿态信息检测所述目标物体的第三姿态信息。
[0014]第三方面,本申请实施例还提供了一种计算机设备,所述计算机设备包括:
[0015]至少一个处理器;
[0016]存储器,设置为存储至少一个程序,
[0017]所述至少一个处理器,设置为执行所述至少一个程序以实现如第一方面所述的物体姿态的检测方法。
[0018]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的物体姿态的检测方法。
附图说明
[0019]图1为本申请一个实施例提供的一种物体姿态的检测方法的流程图;
[0020]图2为本申请一个实施例提供的一种检测目标物体姿态的示例图;
[0021]图3为本申请另一实施例提供的一种一阶段网络的示例图;
[0022]图4为本申请另一实施例提供的一种两阶段网络的示例图;
[0023]图5是本申请另一实施例提供的一种物体姿态的检测方法的流程图;
[0024]图6为本申请另一实施例提供的一种物体姿态的检测装置的结构示意图;
[0025]图7为本申请另一实施例提供的一种计算机设备的结构示意图;
[0026]图8为本申请示例性实施例中的检测三维的边框投影至图像数据时的二维的第一姿态信息的流程图;
[0027]图9为本申请另一示例性实施例中的检测三维的边框投影至图像数据时的二维的第一姿态信息的流程图;
[0028]图10为本申请另一示例性实施例中的将第一姿态信息映射为三维的第二姿态信息的流程图;
[0029]图11为本申请另一示例性实施例中的根据第二姿态信息检测目标物体的第三姿态信息的流程图。
具体实施方式
[0030]相关技术中,3D目标检测方法按输入形式的不同主要可以分为如下四个大类:
[0031]第一类,单目图像,即输入单摄像头拍摄的一帧图像数据。
[0032]第二类,双目图像,即输入双目摄像头从两个方向拍摄的两帧图像数据。
[0033]第三类,点云,即用激光雷达采集的空间的点的数据。
[0034]第四类,点云和单目图像结合,即同时输入单摄像头拍摄的一帧图像数据与激光雷达采集的空间的点的数据。
[0035]对于移动端,双目摄像头头、激光雷达的结构较为复杂、较难移植到移动端,且成本较高,通常会使用单目图像。
[0036]相关技术中,基于单目图像的3D目标检测大多是基于CenterNet(中心网络)进行改进,直接由网络端到端地估计物体的信息,但这类方法对旋转估计比较敏感,旋转稍微有0.01误差也对物体的信息产生比较大的偏差,导致稳定性和精确度都较差。
[0037]为应对上述工况,本申请实施例公开了一种物体姿态的检测方法、装置、计算机设备和存储介质,提高3D目标检测的稳定性和精确度。
[0038]下面结合附图和实施例对本申请进行说明。
[0039]一个实施例
[0040]图1为本申请一个实施例提供的一种物体姿态的检测方法的流程图,本实施例在目标检测时,将边界框的2D(2

dimension,二维)姿态映射为3D姿态,检测物体的3D姿态。本申请实施例描述的一种物体姿态的检测方法,可以由物体姿态的检测装置来执行,该物体姿态的检测装置可以由软件和/或硬件实现,可配置在作为移动端的计算机设备中,计算机设备包括,例如手机、平板电脑、智能穿戴设备,等等,智能穿戴设备包括,例如智能眼镜、智能手表等。
[0041]本申请实施例包括如下步骤:
[0042]步骤101、获取图像数据。
[0043]在计算机设备中,可以安装Android(安卓)、iOS、HarmonyOS(鸿蒙系统)等操作系统,用户可以在这些操作系统中安装用户所需的应用程序,例如,直播应用、短视频应用、美颜应用、会议应用,等等。
[0044]计算机设备可以配置有一个或多个摄像头(Camera),摄像头又称相机。这些摄像头可以安装在计算机设备的正面、又称前置摄像头,也可以安装在计算机设备的背部、又称后置摄像头。
[0045]这些应用可以将计算机设备本地的图库、网络的图库中的图像数据作为待使用的图像数据,也可以调用摄像头采集图像数据,等等。
[0046]图像数据中具有作为检测目标的物体,该物体记为目标物体,该目标物体可以根据业务场景的需求而设置,例如,如图2所示的杯子201、笔记本、笔、显示屏,等等。
[0047]示例性地,这些应用调用摄像头面向目标物体采集视频数据,视频数据中具有多帧图像数据,通过卡尔曼滤波、光流法等方法在多帧图像数据中追踪目标物体。
[0048]步骤102、将图像数据输入二维检测模型中,检测三维的边界框投影至图像数据时的二维的第一姿态信息。
[0049]目标物体处于真实的三维空间中,可以使用三维的边界框描述目标物体在三维的空间中的姿态,其中,如图2所示,三维的边界框的形状可以包括长方体202、圆柱体、球体,等等,三维的边界框是目标物体201外接的框体,三维的边界框可用于检测目标物体201。
[0050]在图像数据中,目标物体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种物体姿态的检测方法,包括:获取图像数据,所述图像数据中具有目标物体;将所述图像数据输入二维检测模型中,检测三维的边界框投影至所述图像数据时的二维的第一姿态信息,所述边界框用于检测所述目标物体;将所述第一姿态信息映射为三维的第二姿态信息;根据所述第二姿态信息检测所述目标物体的第三姿态信息。2.根据权利要求1所述的方法,其中,所述二维检测模型包括编码器、解码器、预测网络;所述将所述图像数据输入二维检测模型中,检测边界框的二维的第一姿态信息,包括:在所述编码器中对所述图像数据进行编码,获得第一图像特征;在所述解码器中对所述第一图像特征进行解码,获得第二图像特征;在所述预测网络中将所述第二图像特征映射为边界框的二维的第一姿态信息。3.根据权利要求2所述的方法,其中,所述编码器包括卷积层、第一残差网络、第二残差网络、第三残差网络、第四残差网络、第五残差网络,所述第一残差网络、所述第二残差网络、所述第三残差网络、所述第四残差网络与所述第五残差网络分别包括至少一个瓶颈残差块;所述在所述编码器中对所述图像数据进行编码,获得第一图像特征,包括:在所述卷积层中对所述图像数据进行卷积处理,获得第一层级特征;在所述第一残差网络中对所述第一层级特征进行处理,获得第二层级特征;在所述第二残差网络中对所述第二层级特征进行处理,获得第三层级特征;在所述第三残差网络中对所述第三层级特征进行处理,获得第四层级特征;在所述第四残差网络中对所述第四层级特征进行处理,获得第五层级特征;在所述第五残差网络中对所述第五层级特征进行处理,获得第六层级特征。4.根据权利要求3所述的方法,其中,所述第一残差网络中所述瓶颈残差块的数量小于所述第二残差网络中所述瓶颈残差块的数量,所述第二残差网络中所述瓶颈残差块的数量小于所述第三残差网络中所述瓶颈残差块的数量,所述第三残差网络中所述瓶颈残差块的数量小于所述第四残差网络中所述瓶颈残差块的数量,所述第四残差网络中所述瓶颈残差块的数量等于所述第五残差网络中所述瓶颈残差块的数量;所述第二层级特征的维度高于所述第三层级特征的维度,所述第三层级特征的维度高于所述第四层级特征的维度,所述第四层级特征的维度高于所述第五层级特征的维度,所述第五层级特征的维度高于所述第六层级特征的维度。5.根据权利要求3所述的方法,其中,所述解码器包括转置卷积层、第六残差网络,所述第六残差网络包括多个瓶颈残差块;所述在所述解码器中对所述第一图像特征进行解码,获得第二图像特征,包括:在所述转置卷积层中对所述第六层级特征数据进行卷积处理,获得第七层级特征;将所述第五层级特征与所述第七层级特征拼接为第八层级特征;在所述第六残差网络中对所述第八层级特征进行处理,获得第二图像特征。6.根据权利要求5所述的方法,其中,所述第二图像特征的维度高于所述第六层级特征的维度。
7.根据权利要求5所述的方法,其中,所述预测网络包括第一预测网络、第二预测网络、第三预测网络、第四预测网络,所述第一预测网络、所述第二预测网络、所述第三预测网络与所述第四预测网络分别包括多个瓶颈残差块;所述在所述预测网络中将所述第二图像特征映射为边界框的二维的第一姿态信息,包括:在所述第一预测网络中对所述第二图像特征进行处理,获得边界框的中心点;在所述第二预测网络中对所述第二图像特征进行处理,获得边界框的深度;在所述第三预测网络中对所述第二图像特征进行处理,获得边界框的尺寸;在所述第四预测网络中对所述第二图像特征进行处理,获得边界框中的顶点相对于所述中心点偏移的距离。8.根据权利要求1所述的方法,其中,所述二维检测模型包括目标检测模型与编码模型,目标检测模型与编码模型级联;所述将所述图像数据输入二维检测模型中,检测边界框的二维的第一姿态信息,包括:在所述目标检测模型...

【专利技术属性】
技术研发人员:井雪陈德健陈建强蔡佳然项伟
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1