一种基于自适应令牌聚合的单目深度估计方法及系统技术方案

技术编号:40197412 阅读:26 留言:0更新日期:2024-01-27 00:01
本发明专利技术属于图像处理技术领域,为了解决现有方法无法准确提取丰富的全局信息,以及无法准确估计局部特征,从而导致无法实现准确估计的问题,提出一种基于自适应令牌聚合的单目深度估计方法及系统,将卷积网络与Transformer各自的优点融合应用于深度估计任务中,其中Transformer用于提取全局上下文信息,卷积网络用于保留局部上下文信息,从而使算法具备了提取场景中完整信息的能力,并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系,增强特征的表征能力,从而提高估计的准确性。

【技术实现步骤摘要】

本专利技术属于图像处理,尤其涉及一种基于自适应令牌聚合的单目深度估计方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、深度估计是计算机视觉中的一个基本问题。它包括预测在每个像素处描绘的3d点的垂直坐标。对于3d重建、自动驾驶和机器人等众多应用至关重要。

3、目前,有很多设备能够直接获取场景深度,但是设备造价昂贵;而传统深度估计方法主要依赖于双目或多目摄像机系统,这些方法通常受到硬件要求和相机配置的限制。随着深度学习技术的兴起,基于卷积神经网络cnn即convolutional neural network的深度估计方法取得了重大突破。这些方法使用卷积神经网络,通过学习大量带有深度标签的图像数据,能够从单一视图中推断出像素级的深度信息。

4、受自然语言处理中变形器成功的启发,视觉transformer 模型最近被开发出来,并在计算机视觉领域的取得广泛关注。对比传统深度估计方法使用的卷积神经网络,在处理空间信息时受到卷积核大小和池化层的限制,transformer 本文档来自技高网...

【技术保护点】

1.一种基于自适应令牌聚合的单目深度估计方法,其特征在于,包括:

2.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,对获取待估计图像进行分割,具体包括:通过分区算子对待估计图像进行分割,分割得到多个大小一致的图像块。

3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述Transformer分支包括多个依次连接的下采样层,每个下采样层包括依次包括补丁合并层和多个Transformer块,每个Transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。p>

4.如权利...

【技术特征摘要】

1.一种基于自适应令牌聚合的单目深度估计方法,其特征在于,包括:

2.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,对获取待估计图像进行分割,具体包括:通过分区算子对待估计图像进行分割,分割得到多个大小一致的图像块。

3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述transformer分支包括多个依次连接的下采样层,每个下采样层包括依次包括补丁合并层和多个transformer块,每个transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。

4.如权利要求3所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述卷积分支包括卷积编码器和卷积特征增强模块,将卷积分支的卷积编码层的输出特征利用矩形卷积模块进行特征提取,得到矩形卷积聚类特征,将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并。

5.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并,具体为:

6.如权利要求4所述的一种基于自适应令牌聚合的单目深度...

【专利技术属性】
技术研发人员:张明亮周大正李彬杨姝慧智昱旻徐一明刘丽霞
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1