用于估计目标对象的三维位姿的方法和装置制造方法及图纸

技术编号:38876169 阅读:16 留言:0更新日期:2023-09-22 14:09
本公开实施例提供一种用于估计目标对象的三维位姿的方法和装置,所述方法包括:获取目标图像中的目标对象的关键点的位置信息,所述关键点包括多个轮廓点和预定义的多个语义点;所述多个语义点与所述目标对象的姿态有关;基于所述多个语义点的位置信息以及待渲染对象的三维模型上的多个参考语义点的参考位置信息,确定所述目标对象的初始三维位姿;所述多个参考语义点与所述多个语义点一一对应;基于所述多个轮廓点的位置信息对所述初始三维位姿进行调整,得到所述目标对象的三维位姿的估计结果。的估计结果。的估计结果。

【技术实现步骤摘要】
用于估计目标对象的三维位姿的方法和装置


[0001]本公开涉及虚拟现实
,尤其涉及用于估计目标对象的三维位姿的方法和装置。

技术介绍

[0002]在相关技术中,常常会将一些三维模型渲染到真实采集的图像中的目标对象上,以使渲染后的图像获得一定的视觉效果。为了提高渲染准确度,需要确定的图像中的目标对象的三维位姿。然而,相关技术确定三维位姿的准确度较低,导致渲染准确度较低。

技术实现思路

[0003]第一方面,本公开实施例提供一种用于估计目标对象的三维位姿的方法,所述方法包括:获取目标图像中的目标对象的关键点的位置信息,所述关键点包括多个轮廓点和预定义的多个语义点;所述多个语义点与所述目标对象的姿态有关;基于所述多个语义点的位置信息以及待渲染对象的三维模型上的多个参考语义点的参考位置信息,确定所述目标对象的初始三维位姿;所述多个参考语义点与所述多个语义点一一对应;基于所述多个轮廓点的位置信息对所述初始三维位姿进行调整,得到所述目标对象的三维位姿的估计结果。
[0004]第二方面,本公开实施例提供一种用于估计目标对象的三维位姿的装置,所述装置包括:获取模块,用于获取目标图像中的目标对象的关键点的位置信息,所述关键点包括多个语义点和预定义的多个轮廓点;所述多个语义点与所述目标对象的姿态有关;确定模块,用于基于所述多个语义点的位置信息以及待渲染对象的三维模型上的多个参考语义点的参考位置信息,确定所述目标对象的初始三维位姿;所述多个参考语义点与所述多个语义点一一对应;调整模块,用于基于所述多个轮廓点的位置信息对所述初始三维位姿进行调整,得到所述目标对象的三维位姿的估计结果。
[0005]第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。
[0006]第四方面,本公开实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
[0007]本公开实施例定义了语义点和轮廓点这两类关键点。由于语义点与目标对象的姿态有关,因此,可以先通过语义点来获得目标对象的初始三维位姿;再通过轮廓点来对初始三维位姿进行微调,由于轮廓点能够确定目标对象的边缘轮廓,因此能够基于目标对象的边缘轮廓得到更为准确的目标三维位姿。由于获取的目标三维位姿具有较高的准确度,因此,将目标三维位姿用于渲染三维模型能够提高渲染准确度。
[0008]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
[0009]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
[0010]图1A、图1B和图1C分别是本公开实施例的应用场景的示意图。
[0011]图2是本公开实施例的用于估计目标对象的三维位姿的方法的流程图。
[0012]图3A和图3B分别是本公开实施例的语义点的示意图。
[0013]图3C是本公开实施例的轮廓点的示意图。
[0014]图4A和图4B分别是本公开实施例的参考语义点的示意图。
[0015]图5A和图5B是本公开实施例的确定投影误差的示意图。
[0016]图5C是本公开实施例的不同类别的目标对象的目标轮廓点的示意图。
[0017]图6是本公开实施例的轮廓点对应的候选点的示意图。
[0018]图7A是本公开实施例的确定手腕朝向的示意图。
[0019]图7B是本公开实施例的手腕类别转换的示意图。
[0020]图8是本公开实施例的用于估计目标对象的三维位姿的装置的框图。
[0021]图9是本公开实施例的计算机设备的示意图。
具体实施方式
[0022]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0023]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
[0024]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0025]为了使本
的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
[0026]在相关技术中,常常会将一些三维模型渲染到真实采集的图像中的目标对象上,以使渲染后的图像获得一定的视觉效果。例如,在虚拟试戴场景中,三维模型可以是手表模型,目标对象可以是手腕。参见图1A,可以通过图像采集装置(例如手机101上的摄像头,摄像头在图中未示出)采集手腕102的图像,在采集的图像中渲染出手表模型103,得到渲染后的图像104,并在显示装置(例如手机101的屏幕)上展现出将手表佩戴在手腕102上的视觉
效果。
[0027]本领域技术人员可以理解,上述虚拟试戴场景仅为一种示例性说明,并非用于限制本公开。例如,在图1B所示的实施例中,三维模型为时钟模型105,目标对象为卡通动物106,将时钟模型105渲染到卡通动物106的图像中,得到卡通动物时钟特效。又例如,在图1C所示的实施例中,三维模型为人物模型107,目标对象为树叶108,将人物模型107渲染到树叶108的图像中,得到人物在树叶上翩翩起舞的特效。除了以上列举的几种应用场景之外,本公开实施例的方案还可以应用于其他的应用场景,此处不再一一列举。
[0028]为了获得上述渲染效果,一般需要先确定图像中目标对象的关键点的位置信息,再基于关键点的位置信息确定目标对象的三维位姿,然后根据目标对象的三维位姿渲染三维模型。然而,相关技术确定三维位姿的准确度较低,导致渲染准确度较低。
[0029]基于此,本公开实施例提供一种用于估计目标对象的三维位姿的方法,参见图2,所述方法包括:
[0030]步骤201:获取目标图像中的目标对象的关键点的位置信息,关键点包括多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于估计目标对象的三维位姿的方法,其特征在于,所述方法包括:获取目标图像中的目标对象的关键点的位置信息,所述关键点包括多个轮廓点和预定义的多个语义点;所述多个语义点与所述目标对象的姿态有关;基于所述多个语义点的位置信息以及待渲染对象的三维模型上的多个参考语义点的参考位置信息,确定所述目标对象的初始三维位姿;所述多个参考语义点与所述多个语义点一一对应;基于所述多个轮廓点的位置信息对所述初始三维位姿进行调整,得到所述目标对象的三维位姿的估计结果。2.根据权利要求1所述的方法,其特征在于,所述获取目标图像中的目标对象的关键点的位置信息,包括:通过目标检测模型对所述目标图像进行检测,得到所述目标图像中的目标对象的至少两个目标轮廓点的初始位置信息;基于所述至少两个目标轮廓点的初始位置信息从所述目标图像中裁剪出包括所述目标对象的图像区域;通过关键点检测模型对所述图像区域进行关键点检测,得到所述多个语义点的位置信息和所述多个轮廓点的位置信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定所述目标对象的类别信息,所述目标对象的类别信息表征所述目标对象属于第一类别或第二类别,所述第一类别的目标对象与所述第二类别的目标对象关于一对称轴对称;所述通过关键点检测模型对所述图像区域进行关键点检测,包括:在所述目标对象属于所述第一类别的情况下,基于所述对称轴对裁剪出的所述图像区域进行翻转处理,得到翻转图像区域;通过关键点检测模型对所述翻转图像区域进行关键点检测。4.根据权利要求3所述的方法,其特征在于,所述确定所述目标对象的类别信息,包括:对所述目标图像进行检测,得到所述至少两个目标轮廓点分别对应的位置热力图;其中,所述位置热力图中每一像素点的热力值表征所述目标图像中对应的像素点为与所述位置热力图对应的目标轮廓点的概率;基于各个目标轮廓点分别对应的位置热力图,以及预设的对象类别与目标轮廓点之间的对应关系,确定所述目标对象的类别信息。5.根据权利要求3或4所述的方法,其特征在于,所述目标图像为视频流中的视频帧;所述方法还包括:将所述目标图像中的目标对象的所述至少两个目标轮廓点的位置信息和所述目标图像中的目标对象的类别信息输入目标跟踪模型;通过所述目标跟踪模型获取所述视频流中的所述目标图像的在后视频帧中的所述目标对象的多个语义点的位置信息和多个轮廓点的位置信息,以及所述在后视频帧中的所述目标对象的类别信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过所述目标跟踪模型获取所述在后视频帧中的所述目标对象的判丢分数,所述判丢
分数用于表征所述在后视频帧中的所述目标对象丢失的概率;若所述判丢分数大于预设的分数阈值,将所述在后视频帧作为新的目标图像,并返回获取目标图像中的目标对象的关键点的位置信息的步骤。7.根据权利要求2至6任意一项所述的方法,其特征在于,所述基于所述至少两个目标轮廓点的初始位置信息从所述目标图像中裁剪出包括所述目标对象的图像区域,包括:基于所述至少两个目标轮廓点的初始位置信息,对所述目标图像进行旋转处理,经旋转处理后所述目标图像中的目标对象朝向预设角度;从经旋转处理后的所述目标图像中裁剪出包括所述目标对象的图像区域。8.根据权利要求1至7任一项所述的方法,其特征在于,所述多个语义点和所述多个轮廓点的位置信息均通过关键点检测模型获取;所述...

【专利技术属性】
技术研发人员:何野杜天元赵通四建楼钱晨
申请(专利权)人:北京大甜绵白糖科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1