【技术实现步骤摘要】
基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
本专利技术属于计算机视觉(虚拟现实)中的图像深度估计领域,具体涉及一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法。
技术介绍
图像深度估计在虚拟现实领域取得了一系列丰富的研究成果,是计算机视觉领域中一项重要的研究课题。深度信息是理解一个场景三维结构关系的重要组成部分,准确的深度信息能够帮助我们更好地进行场景理解。单目图像的获取对设备数量和环境条件要求较低,通过单目图像进行深度估计更贴近实际情况,应用场景更广泛。深度学习的迅猛发展,使得基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的方法在单目图像深度估计领域取得了一定的成果,成为图像深度估计领域的研究热点。专利【申请号:CN106157307A】提出了一种基于多尺度卷积神经网络和连续条件随机场的单目图像深度估计方法,其利用条件随机场模型根据深度卷积神经网络的输出深度图计算单点势能,根据输入RGB图像计算成对稀疏势能,最后用最大化后验概率算法推导出优化的深度 ...
【技术保护点】
1.一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法,其特征在于,该方法涉及的网络模型包括由SENet模块和MFF+MACA模块构成的用于自适应聚合全局上下文信息的编码器部分Encoder以及估计复杂场景结构的残差金字塔解码器部分RRM-Decoder两部分,编码器部分得到残差深度图和预测深度图,经过解码器部分处理得到最终的精细深度图,该方法操作步骤包括:/n第1步、获得待估计图像;/n第2步、由编码器部分中的SENet模块提取图像中包含位置信息的低级特征;/n第3步、编码器部分中的MFF+MACA模块由一个多尺度注意力上下文聚合模块(MACA)和用于将不同尺度 ...
【技术特征摘要】
1.一种基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法,其特征在于,该方法涉及的网络模型包括由SENet模块和MFF+MACA模块构成的用于自适应聚合全局上下文信息的编码器部分Encoder以及估计复杂场景结构的残差金字塔解码器部分RRM-Decoder两部分,编码器部分得到残差深度图和预测深度图,经过解码器部分处理得到最终的精细深度图,该方法操作步骤包括:
第1步、获得待估计图像;
第2步、由编码器部分中的SENet模块提取图像中包含位置信息的低级特征;
第3步、编码器部分中的MFF+MACA模块由一个多尺度注意力上下文聚合模块(MACA)和用于将不同尺度提取的特征合并为一个尺度上的信息的四个多尺度特征融合模块(MFF)组成,MFF+MACA模块自适应聚合图像的全局上下文信息;MACA模块提取的特征通过预测得到预测深度图,四个MFF模块通过预测得到四个残差深度图;
第4步、对第3步得到的预测深度图进行双线性插值上采样操作,得到上采样深度图;
第5步、采用RRM-Decoder部分对第3步得到的残差深度图和第4步得到的上采样深度图进行处理和融合,得到最终的深度图。
2.根据权利要求1所述的基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法,其特征在于,所述第3步中的MACA模块包括:空间注意力子模块(Spati...
【专利技术属性】
技术研发人员:张丹,刘京,余义德,张志伟,时光,孙杰,夏光辉,王红萍,
申请(专利权)人:中国人民解放军九一五五零部队,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。