【技术实现步骤摘要】
本专利技术属于深度学习、计算机视觉、图像处理和图像超分辨率重建领域,涉及由宏观到微观的一种新的深度学习模型、转换器解码器和稀疏注意力掩码机制算法。
技术介绍
1、计算机视觉领域中,获取正确的像素级场景深度在各种任务中发挥着重要作用,如场景理解、自动驾驶、机器人导航、同时定位和建图、智能农业和增强现实。因此,这是过去几十年来研究的一个长期目标。获得场景深度的一种成本有效的方法是使用单目深度估计算法,从单个图像直接估计场景深度。然而,视觉方法通常产生低的推理精度和较差的可概括性,因此容易受到实际部署的影响。深度传感器以真实的场景尺度提供精确和稳健的距离测量,因此,它们更适用于需要安全保证和高性能的应用,例如自动驾驶汽车。事实上,在工业应用中,使用激光雷达测量深度可能仍然是获得可靠深度的最佳部署方式。然而,无论是lidar还是常用的rgbd相机,如microsoft kinect,都无法提供密集的像素深度图。
2、为了解决这个问题,许多深度学习的方法被提出。这些方法大致可以分为两类:多阶段网络和空间传播网络。
3、多阶
...【技术保护点】
1.一种基于距离感知掩码转换器和稀疏注意力掩码机制的深度补全方法,其特征在于,该深度补全方法分为三阶段的网络;第一阶段为粗略提取阶段,将RGB图像和其对应的稀疏深度图作为输入,传输至以卷积网络、残差网络、Swin Transformer模块为顺序的编码器;将其输出的编码特征图作为输入,传递给以Swin Transformer模块、反卷积网络、残差网络为顺序的解码器,生成粗略的深度图和权重;第二阶段为过渡阶段,设计距离感知掩码转换器,将其用于RGB图像尺度1/16和1/32的解码特征图上,生成的掩码特征图将进一步指导细化深度信息阶段的深度预测;第三阶段为细化深度信息阶段
...【技术特征摘要】
1.一种基于距离感知掩码转换器和稀疏注意力掩码机制的深度补全方法,其特征在于,该深度补全方法分为三阶段的网络;第一阶段为粗略提取阶段,将rgb图像和其对应的稀疏深度图作为输入,传输至以卷积网络、残差网络、swin transformer模块为顺序的编码器;将其输出的编码特征图作为输入,传递给以swin transformer模块、反卷积网络、残差网络为顺序的解码器,生成粗略的深度图和权重;第二阶段为过渡阶段,设计距离感知掩码转换器,将其用于rgb图像尺度1/16和1/32的解码特征图上,生成的掩码特征图将进一步指导细化深度信息阶段的深度预测;第三阶段为细化深度信息阶段,通过siamese架构的网络,结合第一阶段的编码器、解码器来处理rgb图像和稀疏深度图,输出细化深度图及其权重;细化深度信息阶段包含的操作有加入位置嵌入和尺度级别嵌入、利用注意力机制生成掩码特征、交叉注意力机制和自注意力机制;在细化深度信息阶段设计了稀疏注意掩码,以减少无效区域对...
【专利技术属性】
技术研发人员:陈昊,王立君,王一帆,卢湖川,李柏岑,耿传统,王欣,姜子卓,张衍栋,殷祺云,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。