【技术实现步骤摘要】
面向手物交互场景的位姿估计方法和装置
[0001]本专利技术涉及位姿识别
,尤其涉及面向手物交互场景的位姿估计方法和装置。
技术介绍
[0002]在虚拟现实、增强现实、人机交互和机械手抓取等任务中,精确的估计人手和物体的交互位势有助于机器人对用户意图的正确判断和对用户行为的学习。
[0003]现有技术中,大多数从单帧RGB手物交互图像中回归学习物体模型和人手模型的参数,以获得人手和物体的交互位势。这种方法尽管在整体上具有一定的鲁棒性,但由于使用的深度神经网络难以做到数值的绝对精准,难以保证人手和物体的交互位势的估计合理性。比如难以保证人手和物体之间的接触部分不存在太大的相交区域、难以保证物理模拟条件下物体能够稳定地保持在人手中等。少数以从单帧RGB手物交互图像回归学习的人手和物体的交互位势为初始位姿,引入接触先验对初始位姿进行优化,消除深度神经网络不够精准的问题,保证人手和物体的交互位势的估计物理合理性。这种方法优化过程未考虑对真实情况的对齐,尽管初始位姿具有输入图片中蕴涵的真实情况的语义信息,但在优化过程中并未能加入合适的与输入图片有关的约束项,可能导致估计结果在尝试满足物理合理性的同时偏离与输入图像的对应。
[0004]总之,面向手物交互场景的位姿估计技术还有待提升。
技术实现思路
[0005]本专利技术提供一种面向手物交互场景的位姿估计方法和装置,以从单帧RGB手物交互图像回归学习的人手和物体的交互位势为初始位姿,利用从手物交互图像中提取一系列的二维高阶特征和接触先验优化初 ...
【技术保护点】
【技术特征摘要】
1.一种面向手物交互场景的位姿估计方法,其特征在于,所述方法包括:对目标手物交互图像进行回归学习,得到人手与物体的初始交互位势;利用所述初始交互位势和所述目标手物交互图像,估计交互过程中人手与物体的接触信息;从所述目标手物交互图像中提取高阶二维特征;根据所述接触信息和所述高阶二维特征优化所述初始交互位势,得到人手与物体的交互位势;其中,所述高阶二维特征,用于约束所述目标手物交互图像中人手与物体的空间范围。2.根据权利要求1所述的面向手物交互场景的位姿估计方法,其特征在于,所述对目标手物交互图像进行回归学习,得到人手与物体的初始交互位势,包括:将目标手物交互图像输入预先构建的位势估计网络,回归得到物体模型的六维位姿以及MANO人手模型的位姿参数、形状参数和腕部根节点六维位姿参数;利用MANO人手模型的位姿参数、形状参数、腕部根节点六维位姿参数和标准3D手部网络,构建MANO人手模型;利用物体模型的六维位姿和形状,构建物体模型;以所述MANO人手模型和所述物体模型来表示人手与物体的初始交互位势。3.根据权利要求2所述的面向手物交互场景的位姿估计方法,其特征在于,所述接触信息至少包括:所述物体模型每一个顶点与所述MANO人手模型是否接触;与所述MANO人手模型接触的顶点对应的接触强度;与所述MANO人手模型接触的顶点对应的接触部分位于所述MANO人手模型的区域。4.根据权利要求1~3任一项所述的面向手物交互场景的位姿估计方法,其特征在于,所述从所述目标手物交互图像中提取高阶二维特征,包括:将所述目标手物交互图像输入预先构建的高阶二维特征提取网络中,得到所述高阶二维特征;其中,所述高阶二维特征包括:第一分割掩码特征图、第二分割掩码特征图、第一稠密映射特征图、第二稠密映射特征图和相对深度特征图;所述第一分割掩码特征图,表征所述目标手物交互图像中每一个像素属于物体的概率值;所述第二分割掩码特征图,表征所述目标手物交互图像中每一个像素属于人手的概率值;所述第一稠密映射特征图,表征所述目标手物交互图像中每一个像素的映射点在物体稠密特征空间中的稠密特征;所述第二稠密映射特征图,表征所述目标手物交互图像中每一个像素的映射点在人手稠密特征空间中的稠密特征;所述相对深度特征图,表征所述目标手物交互图像中每一个像素的映射点相对于物体中心点的深度。5.根据权利要求4所述的面向手物交互场景的位姿估计方法,其特征在于,所述根据所述接触信息和所述高阶二维特征优化所述初始交互位势,得到人手与物体的交互位势,包
括:基于所述物体模型、所述MANO人手模型、所述第一分割掩码特征图和所述第二分割掩码特征图,计算分割掩码估计误差;基于所述物体模型、所述MANO人手模型和所述相对深度特征图,计算相对深度估计误差;基于所述物体模型、所述MANO人手模型、所述第一稠密映射特征图、所述第二稠密映射特征图,计算稠密映射估计误差;基于所述物体模型、所述MANO人手模型、所述第一稠密映射特征图、所述第二稠密映射特征图和所述相对深度特征图,计算稠密映射
‑
相对深度联合估计误差;以所述接触信息对应的估计误差、正则项、分割掩码估计误差、相对深度估计误差、稠密映射估计误差和稠密映射
‑
相对深度联合估计误差的加和为优化损失,迭代优化所述初始交互位势,得到人手与物体的交互位势;其中,所述正则项,为优化后人手与物体的交互位势和所述初始交互位势之间的距离。6.根据权利要求5所述的面向手物交互场景的位姿估计方法,其特征在于,所述基于所述物体模型、所述MANO人手模型、所述第一分割掩码特征图和所述第二分割掩码特征图,计算分割掩码估计误差,包括:基于相机参数和所述物体模型,采用边界渲染方式确定所述物体模型对应的分割掩码特征图;基于相机参数和所述MANO人手模型,采用边界渲染方式确定所述MANO人手模型对应的分割掩码特征图;将所述第一分割掩码特征图和所述物体模型对应的分割掩码特征图的误差与所述第二分割掩码特征图和所述MANO人手模型对应的分割掩码特征图的误差之间的加和,作为分割掩码估计误差。7.根据权利要求5所述的面向手物交互场景的位姿估计方法,其特征在于,所述基于所述物体模型、所述MANO人手模型和所述相对深度特征图,计算相对深度估计误差,包括:基于相机参数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。