【技术实现步骤摘要】
物体锚定方法、锚定系统及存储介质
[0001]本申请属于图像识别
,具体涉及一种物体锚定方法、锚定系统及存储介质
技术介绍
[0002]常见的物体识别与3D位置和姿态跟踪深度学习算法需要大量的人工标注数据,用户自定义物体训练很难保证在各种复杂光照和环境下的准确度。现有技术很多使用的是特征工程的方法,使用SIFT、SURF等特征,虽然这些特则对光照背景有一定的健壮性,但是对于有些复杂的光照背景会比较敏感,且容易跟踪失败。现有的很多方法需要用户给定初始位姿,并且需要用户提供精确的3D模型,对于没有3D模型的物体不能跟踪。
技术实现思路
[0003]为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种锚定方法、锚定系统及存储介质。
[0004]根据本申请实施例的第一方面,本申请提供了一种物体锚定方法,其包括以下步骤:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。
[0005]上述物体锚定方法中,所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模。
[0006]进一步地,所述基于深度学习完成建模的过程为:提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿 ...
【技术保护点】
【技术特征摘要】
1.一种物体锚定方法,其特征在于,包括以下步骤:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。2.根据权利要求1所述的物体锚定方法,其特征在于,所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模。3.根据权利要求2所述的物体锚定方法,其特征在于,所述基于深度学习完成建模的过程为:提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿;利用预训练完成的显著性分割网络获取每一帧图像的掩模;进行模型训练与推断,以获取模型的网格。4.根据权利要求3所述的物体锚定方法,其特征在于,所述进行模型训练与推断的过程为:在图像上随机采集个像素点,各像素点的位置坐标为;利用内参将各像素点的位置坐标转换为成像平面坐标;将成像平面坐标和优化后的相机位姿输入神经网络,提取帧间的色差特征;将帧间的色差特征增加至原图像上,以补偿帧间的色差;其中,帧间的色差特征为:,将图像对应的相机初始化位姿输入神经网络中,获得优化后的位姿;其中,优化后的位姿为:;根据优化后的位姿获取优化后相机的初始位置;其中,优化后相机的初始位置为:;自优化后相机的初始位置向图像的成像平面发射光线,该光线的方向为w,其穿过像素点的位置坐标;其中,光线的方向w为:;
沿方向w采样M个点,这M个点的坐标为;利用深度学习网络预测这M个点在隐式方程表面的概率;其中,预测为在隐式方程表面的点的判断条件为:;式中,表示预测为在隐式方程表面的点,表示阈值,表示符合条件的最小的m;将预测为在隐式方程表面的点送入神经渲染器R,获取预测的RGB颜色的值;其中,预测的RGB颜色的值为:;根据预测的值和采集的K个像素点的颜色计算得到像素差值的平方损耗;其中,像素差值的平方损耗L为:;式中,均表示系数;表示图像像素的差值,表示背景掩模的差值和前景掩模的差值之和,表示边缘的差值;式中,图像像素的差值为:;背景掩模的差值为:;前景掩模的差值为:;式中,BCE表示二值交叉熵损耗;边缘的差值为:;模型推断时,向神经网络、深度学习网络和神经网络的组合模型中输入3D点;使用该组合模型获取存在于其表面的点,由这些点构成网格。5.根据权利要求2所述的物体锚定方法,其特征在于,所述基于计算机视觉完成建模的过程为:采用视觉算法或深度学习算法进行特征提取与匹配;对相机位姿进行估计;
对图像序列中的显著性物体进行分割;对稠密点云进行重建;将重建的稠密点云作为网格生成的输入,使用重建算法重建物体的网格;根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图;根据物体的网格和网格的贴图得到立体模型。6.根据权利要求1所述的物体锚定方法,其特征在于,所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集;所述合成数据集中包括合成训练数据;根据相机位姿和物体位姿,采用模型重投影分割算法得到真实数据集;所述真实数据集中包括真实训练数据;利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。7.根据权利要求6所述的物体锚定方法,其特征在于,所述根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:读取物体的立体模型和预置场景模型;采用PBR渲染方法进行物体位姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注...
【专利技术属性】
技术研发人员:张旭,毛文涛,邓伯胜,于天慧,蔡宝军,
申请(专利权)人:北京影创信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。