物体锚定方法、锚定系统及存储介质技术方案

技术编号:32818673 阅读:11 留言:0更新日期:2022-03-26 20:15
本申请提供一种物体锚定方法、锚定系统及存储介质,物体锚定方法包括:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。本申请能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题,进而实现移动终端自定义物体信息增益与显示的方法,且信息的显示与和物体3D位置和姿态对应。态对应。态对应。

【技术实现步骤摘要】
物体锚定方法、锚定系统及存储介质


[0001]本申请属于图像识别
,具体涉及一种物体锚定方法、锚定系统及存储介质

技术介绍

[0002]常见的物体识别与3D位置和姿态跟踪深度学习算法需要大量的人工标注数据,用户自定义物体训练很难保证在各种复杂光照和环境下的准确度。现有技术很多使用的是特征工程的方法,使用SIFT、SURF等特征,虽然这些特则对光照背景有一定的健壮性,但是对于有些复杂的光照背景会比较敏感,且容易跟踪失败。现有的很多方法需要用户给定初始位姿,并且需要用户提供精确的3D模型,对于没有3D模型的物体不能跟踪。

技术实现思路

[0003]为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种锚定方法、锚定系统及存储介质。
[0004]根据本申请实施例的第一方面,本申请提供了一种物体锚定方法,其包括以下步骤:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。
[0005]上述物体锚定方法中,所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模。
[0006]进一步地,所述基于深度学习完成建模的过程为:提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿;利用预训练完成的显著性分割网络获取每一帧图像的掩模;进行模型训练与推断,以获取模型的网格。
[0007]更进一步地,所述进行模型训练与推断的过程为:在图像上随机采集K个像素点,各像素点的位置坐标为;利用内参将各像素点的位置坐标转换为成像平面坐标;将成像平面坐标和优化后的相机位姿输入神经网络,提取帧间的色差特征;将帧间的色差特征增加至原图像上,以补偿帧间的色差。
[0008]其中,帧间的色差特征为:,
将图像对应的相机初始化位姿输入神经网络中,获得优化后的位姿;其中,优化后的位姿为: ;根据优化后的位姿获取优化后相机的初始位置;其中,优化后相机的初始位置为: ;自优化后相机的初始位置向图像的成像平面发射光线,该光线的方向为w,其穿过像素点的位置坐标;其中,光线的方向w为: ;沿方向w采样M个点,这M个点的坐标为;利用深度学习网络预测这M个点在隐式方程(即隐式函数TSDF)表面的概率;其中,预测为在隐式方程表面的点的判断条件为: ;式中,表示预测为在隐式方程表面的点,表示阈值,表示符合条件的最小的m;将预测为在隐式方程表面的点送入神经渲染器R,获取预测的RGB颜色的值;其中,预测的RGB颜色的值为:;根据预测的值和采集的K个像素点的颜色计算得到像素差值的平方损耗;其中,像素差值的平方损耗L为: ;式中,均表示系数;表示图像像素的差值,表示背景掩模的差值和前景掩模的差值之和,表示边缘的差值;式中,图像像素的差值为:;背景掩模的差值为:
;前景掩模的差值为:;式中,BCE表示二值交叉熵损耗;边缘的差值为:;模型推断时,向神经网络、深度学习网络和神经网络的组合模型中输入3D点;使用该组合模型获取存在于其表面的点,由这些点构成网格。
[0009]进一步地,所述基于计算机视觉完成建模的过程为:采用视觉算法或深度学习算法进行特征提取与匹配;对相机位姿进行估计;对图像序列中的显著性物体进行分割;对稠密点云进行重建;将重建的稠密点云作为网格生成的输入,使用重建算法重建物体的网格;根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图;根据物体的网格和网格的贴图得到立体模型。
[0010]上述物体锚定方法中,所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集;所述合成数据集中包括合成训练数据;根据相机位姿和物体位姿,采用模型重投影分割算法得到真实数据集;所述真实数据集中包括真实训练数据;利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
[0011]进一步地,所述根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:读取物体的立体模型和预置场景模型;采用PBR渲染方法进行物体位姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
[0012]进一步地,所述根据相机位姿和物体位姿,采用模型重投影分割算法得到真实数据集的具体过程为:获取图像序列、相机位姿和物体位姿,将真实图像中的物体分割出来;将位姿离散的真实数据合成为位姿密集连续的数据,进而获得真实图像及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
[0013]更进一步地,所述利用合成训练数据和真实训练数据对基于深度学习的六自由度
位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型的具体过程为:输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask;采用以下损失函数对六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型;训练六自由度位姿估计神经网络时需要用的损失函数为:;式中,表示损失,均表示系数,表示分类损失,表示包围框损失,表示2D损失,表示3D损失,表示掩模损失,表示投影损失;其中,分类损失为:;式中,表示取第i个检测锚点的分类信息,表示取第j个背景特征的信息;表示锚点,表示背景的锚点,表示类别真值,表示神经网络提出的特征;包围框损失为:;式中,表示第i个检测锚点的坐标特征,表示检测框的坐标真值;2D损失为:;式中,表示取2D坐标特征,表示物体的2D特征点真值,表示神经网络提出的特征;3D损失为:;式中,表示取3D坐标特征,表示物体的2D特征点真值,表示神经网络提出的特征;掩模损失为:;式中,表示取前景的第i个特征,表示取背景的第j个特征,fg表示前景,bg表示背景;投影损失为:
;式中,P表示将3D特征投影到2D后和2D真值做差值。
[0014]上述物体锚定方法中,所述实现对感兴趣物体的渲染通过移动终端实现或通过移动终端与云服务器混合实现;所述通过移动终端实现的过程为:在开始跟踪前,访问云服务器,将用户的物体模型、深度学习模型、特征数据库下载后,其他计算都在移动终端进行;移动终端从设备上读取摄像机数据,经过检测或识别神经网络、六自由度位姿估计神经网络,获得物体位姿;根据物体位姿将需要渲染的内容渲染出来;所述通过移动终端与云服务器混合实现的过程为:在移动终端中输入图像序列,并对每一帧图像进行显著性检测;将显著性检测区域上传至云服务器进行检索,得到物体的信息以及与其相关的深度学习模型,并载到移动终端;在移动终端进行物体位姿估计,获得物体位姿;根据物体位姿本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物体锚定方法,其特征在于,包括以下步骤:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。2.根据权利要求1所述的物体锚定方法,其特征在于,所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模。3.根据权利要求2所述的物体锚定方法,其特征在于,所述基于深度学习完成建模的过程为:提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿;利用预训练完成的显著性分割网络获取每一帧图像的掩模;进行模型训练与推断,以获取模型的网格。4.根据权利要求3所述的物体锚定方法,其特征在于,所述进行模型训练与推断的过程为:在图像上随机采集个像素点,各像素点的位置坐标为;利用内参将各像素点的位置坐标转换为成像平面坐标;将成像平面坐标和优化后的相机位姿输入神经网络,提取帧间的色差特征;将帧间的色差特征增加至原图像上,以补偿帧间的色差;其中,帧间的色差特征为:,将图像对应的相机初始化位姿输入神经网络中,获得优化后的位姿;其中,优化后的位姿为:;根据优化后的位姿获取优化后相机的初始位置;其中,优化后相机的初始位置为:;自优化后相机的初始位置向图像的成像平面发射光线,该光线的方向为w,其穿过像素点的位置坐标;其中,光线的方向w为:;
沿方向w采样M个点,这M个点的坐标为;利用深度学习网络预测这M个点在隐式方程表面的概率;其中,预测为在隐式方程表面的点的判断条件为:;式中,表示预测为在隐式方程表面的点,表示阈值,表示符合条件的最小的m;将预测为在隐式方程表面的点送入神经渲染器R,获取预测的RGB颜色的值;其中,预测的RGB颜色的值为:;根据预测的值和采集的K个像素点的颜色计算得到像素差值的平方损耗;其中,像素差值的平方损耗L为:;式中,均表示系数;表示图像像素的差值,表示背景掩模的差值和前景掩模的差值之和,表示边缘的差值;式中,图像像素的差值为:;背景掩模的差值为:;前景掩模的差值为:;式中,BCE表示二值交叉熵损耗;边缘的差值为:;模型推断时,向神经网络、深度学习网络和神经网络的组合模型中输入3D点;使用该组合模型获取存在于其表面的点,由这些点构成网格。5.根据权利要求2所述的物体锚定方法,其特征在于,所述基于计算机视觉完成建模的过程为:采用视觉算法或深度学习算法进行特征提取与匹配;对相机位姿进行估计;
对图像序列中的显著性物体进行分割;对稠密点云进行重建;将重建的稠密点云作为网格生成的输入,使用重建算法重建物体的网格;根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图;根据物体的网格和网格的贴图得到立体模型。6.根据权利要求1所述的物体锚定方法,其特征在于,所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集;所述合成数据集中包括合成训练数据;根据相机位姿和物体位姿,采用模型重投影分割算法得到真实数据集;所述真实数据集中包括真实训练数据;利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。7.根据权利要求6所述的物体锚定方法,其特征在于,所述根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:读取物体的立体模型和预置场景模型;采用PBR渲染方法进行物体位姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注...

【专利技术属性】
技术研发人员:张旭毛文涛邓伯胜于天慧蔡宝军
申请(专利权)人:北京影创信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1