【技术实现步骤摘要】
本专利技术属于计算机视觉及深度学习的,具体涉及一种多目标运动场景的视频深度估计方法。
技术介绍
1、深度估计方法为图像中的每一个像素提供距离信息,是计算机视觉中的一个重要的任务。单目深度估计基于单张图像进行深度预测,分为有监督学习和无监督学习;其中,有监督深度估计方法是将深度相机拍摄的深度图作为真值来监督深度学习模型的学习过程,较早期的深度学习模型使用手动设计的特征、卷积神经网络来提取图像特征;然而这些方法能够提取到的特征更多局限在图像的局部,较难从更大的图像上下文中提取到深度值关联。近期的深度估计方法逐渐使用基于transformer的网络结构提取图像的深度特征,如《vision transformers for dense prediction》文献中使用transformer结构而不是传统的卷积网络构建深度估计模型;此外,由于深度相机拍摄的深度真值较难获取,一些方法(文献《learning the depths of moving people by watchingfrozen people》)转而使用网络上的图像,并使用str
...【技术保护点】
1.一种多目标运动场景的视频深度估计方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述创建活动场景视频数据集,具体为:
3.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述特征编码模块基于特征提取网络构建;所述实例关系模块由Transformer块构成;所述特征解码模块由上采样层构成。
4.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述建立同一移动对象在连续帧间的实例关系并优化实例特征,具体为:
5.根据权
...【技术特征摘要】
1.一种多目标运动场景的视频深度估计方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述创建活动场景视频数据集,具体为:
3.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述特征编码模块基于特征提取网络构建;所述实例关系模块由transformer块构成;所述特征解码模块由上采样层构成。
4.根据权利要求2所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述建立同一移动对象在连续帧间的实例关系并优化实例特征,具体为:
5.根据权利要求4所述的一种多目标运动场景的视频深度估计方法,其特征在于,所述对每个移动对象在不同帧中的实例特征向量进行尺寸标准化,具体为:
6.根据权利要求4所述的一种多目标运动场景的视频深...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。