一种多目标运动场景的视频深度估计方法技术

技术编号:41470772 阅读:19 留言:0更新日期:2024-05-30 14:24
本发明专利技术公开了一种多目标运动场景的视频深度估计方法,首先针对当前多目标订场场景深度数据集较少的问题,本发明专利技术拍摄并标注了以多人物运动为主体的动态场景视频数据集,为后续模型训练提供数据支撑;其次通过构建视频深度估计模型,通过提取移动对象在不同帧中的实例特征并构建不同帧间的实例关系来预测深度值;同时通过几何线段匹配的方法来保证不同帧间移动对象的几何尺寸一致性,使得移动对象的深度预测连续性更加稳定;此外并基于几何尺寸约束的方法对连续帧的深度估计结果进行监督,从而提高了在复杂动态场景中深度估计的精度和可靠性,不仅适用于动态场景同时还适用于静态场景。

【技术实现步骤摘要】

本专利技术属于计算机视觉及深度学习的,具体涉及一种多目标运动场景的视频深度估计方法


技术介绍

1、深度估计方法为图像中的每一个像素提供距离信息,是计算机视觉中的一个重要的任务。单目深度估计基于单张图像进行深度预测,分为有监督学习和无监督学习;其中,有监督深度估计方法是将深度相机拍摄的深度图作为真值来监督深度学习模型的学习过程,较早期的深度学习模型使用手动设计的特征、卷积神经网络来提取图像特征;然而这些方法能够提取到的特征更多局限在图像的局部,较难从更大的图像上下文中提取到深度值关联。近期的深度估计方法逐渐使用基于transformer的网络结构提取图像的深度特征,如《vision transformers for dense prediction》文献中使用transformer结构而不是传统的卷积网络构建深度估计模型;此外,由于深度相机拍摄的深度真值较难获取,一些方法(文献《learning the depths of moving people by watchingfrozen people》)转而使用网络上的图像,并使用structure fro本文档来自技高网...

【技术保护点】

1.一种多目标运动场景的视频深度估计方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述创建活动场景视频数据集,具体为:

3.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述特征编码模块基于特征提取网络构建;所述实例关系模块由Transformer块构成;所述特征解码模块由上采样层构成。

4.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述建立同一移动对象在连续帧间的实例关系并优化实例特征,具体为:

5.根据权利要求4所述的一种多...

【技术特征摘要】

1.一种多目标运动场景的视频深度估计方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述创建活动场景视频数据集,具体为:

3.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述特征编码模块基于特征提取网络构建;所述实例关系模块由transformer块构成;所述特征解码模块由上采样层构成。

4.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述建立同一移动对象在连续帧间的实例关系并优化实例特征,具体为:

5.根据权利要求4所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述对每个移动对象在不同帧中的实例特征向量进行尺寸标准化,具体为:

6.根据权利要求4所述的一种多目标运动场景的视频深...

【专利技术属性】
技术研发人员:梁远全宇晖何盛烽
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1