【技术实现步骤摘要】
识别物体三维位置的方法和系统
本专利技术涉及图像识别领域,具体涉及一种识别物体三维位置的方法和系统。
技术介绍
目前,神经网络已经被用于根据物体的二维图像估计三维位置,现有的算法是以单一视角的二维关键点坐标为输入直接推断三维坐标。在一些视频上测试现有的神经网络估计算法后,实验结果表明这些方法的泛化能力都比较差。现有技术泛化能力差的原因主要有两点,首先是单个视角无法提供足够的三维信息,神经网络推断出的三维结构依赖于训练数据的统计特点,在面对新的场景以及不同的相机配置时无法正确迁移;第二是实际使用环境与常用的公开数据集如Human3.6M等场景差异较大,在数据集上训练的模型无法泛化到实际应用的场景中。
技术实现思路
有鉴于此,本专利技术提供一种识别物体三维位置的方法,包括:获取由多个摄像装置对同一物体分别拍摄的多个视频;分别确定所述物体的关键点在所述多个视频中的二维位置;利用神经网络根据所述二维位置预测所述关键点的三维位置;根据所述三维位置和所述多个摄像装置的参 ...
【技术保护点】
1.一种识别物体三维位置的方法,其特征在于,包括:/n获取由多个摄像装置对同一物体分别拍摄的多个视频;/n分别确定所述物体的关键点在所述多个视频中的二维位置;/n利用神经网络根据所述二维位置预测所述关键点的三维位置;/n根据所述三维位置和所述多个摄像装置的参数确定所述关键点在各个所述摄像装置的成像面中的投影位置;/n根据所述投影位置和所述二维位置的差异计算所述神经网络的损失函数,并根据所述损失函数优化所述神经网络的参数。/n
【技术特征摘要】
1.一种识别物体三维位置的方法,其特征在于,包括:
获取由多个摄像装置对同一物体分别拍摄的多个视频;
分别确定所述物体的关键点在所述多个视频中的二维位置;
利用神经网络根据所述二维位置预测所述关键点的三维位置;
根据所述三维位置和所述多个摄像装置的参数确定所述关键点在各个所述摄像装置的成像面中的投影位置;
根据所述投影位置和所述二维位置的差异计算所述神经网络的损失函数,并根据所述损失函数优化所述神经网络的参数。
2.根据权利要求1所述的方法,其特征在于,在利用神经网络根据所述二维位置预测所述关键点的三维位置的步骤中,以所述关键点在一个所述视频中的二维位置作为所述神经网络的输入数据,使所述神经网络输出所述三维位置。
3.根据权利要求2所述的方法,其特征在于,所述多个视频是由奇数个高度接近且具有一定水平间隔的摄像装置所拍摄的视频,所述输入数据取自位于水平方向居中的摄像装置所拍摄的视频。
4.根据权利要求1所述的方法,其特征在于,分别确定所述物体的关键点在所述多个视频中的二维位置包括:
利用经过训练的物体检测网络分别在所述多个视频中确定所述物体所在的区域;
利用经过训练的关键点检测网络分别在所述区域内确定所...
【专利技术属性】
技术研发人员:陈健生,薛有泽,万纬韬,张馨予,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。