基于ViT的单目深度估计和语义分割方法及系统技术方案

技术编号:43715145 阅读:38 留言:0更新日期:2024-12-18 21:29
本发明专利技术公开了基于ViT的单目深度估计和语义分割方法及系统,涉及人工智能技术领域,包括:接收待处理图像,将待处理图像输入至预先建立的基于ViT骨干网络的编码器内,将待处理图像分割为互不重叠的方块,将方块映射到特征空间中得到词元;将词元输入至预先建立的ViT骨干网络的编码器的Reassemble块进行组合处理,得到类图像的特征表示,通过卷积解码器的Fusion块对类图像的特征表示进行处理,得到处理图像的特征表示;将类图像特征表示与处理图像的特征表示进行拼接,得到拼接特征表示,将拼接特征表示输入至卷积解码器的两个连续的卷积单元内进行上采样操作处理,通过Fusion块的连续操作处理,得到最终特征图;将最终特征图输入至预先构建的单目深度估计和语义分割的任务头内,计算得出总损失。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体的是基于vit的单目深度估计和语义分割方法及系统。


技术介绍

1、场景深度估计与语义分割在机器视觉领域扮演着一个重要角色,它使得机器能够加强对现实三维场景的感知和理解,因此在机器人导航,自动驾驶和虚拟现实等任务中有着广泛的应用,从基于手工设计特征到基于双目相机图像训练的模型,再到基于单目相机图像训练的模型,体现了对于人工智能更高层次的追求。

2、处理这些任务都遵循着把模型分为两个部分的惯例,一个编码器和一个解码器。编码器通常是基于一个图像分类的网络,又称为骨干网络,总是在一个大型图像数据集,如imagenet上面进行预训练的,解码器负责将经编码器输出的特征表示进行组合并生成最后的预测结果。

3、基于卷积的骨干网络通过对输入图像下采样来提取不同尺度的特征表示,下采样操作可以逐渐增加感受野,将低层次的特征汇聚形成更抽象的高层次特征,同时确保网络模型对计算和内存开销是可负担的,然而下采样操作在处理密集型任务时表现出明显的缺点,在模型的深层阶段会造成特征分辨率和粒度的丢失,这在解码器处理过程中是难以恢复的。...

【技术保护点】

1.基于ViT的单目深度估计和语义分割方法,其特征在于,方法包括以下步骤:

2.根据权利要求1所述的基于ViT的单目深度估计和语义分割方法,其特征在于,所述基于ViT骨干网络的编码器将图像处理成p2个互不重叠的方块,随后这些方块被展平成张量,然后分别使用线性层映射成嵌入表示。

3.根据权利要求2所述的基于ViT的单目深度估计和语义分割方法,其特征在于,所述基于ViT骨干网络的编码器内生成嵌入的过程如下:将一张H×W像素的图片处理成一系列词元其中代表readout词元,D表示为每个词元的特征维度;

4.根据权利要求1所述的基于ViT的单目深度估计和语义分...

【技术特征摘要】

1.基于vit的单目深度估计和语义分割方法,其特征在于,方法包括以下步骤:

2.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块,随后这些方块被展平成张量,然后分别使用线性层映射成嵌入表示。

3.根据权利要求2所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述基于vit骨干网络的编码器内生成嵌入的过程如下:将一张h×w像素的图片处理成一系列词元其中代表readout词元,d表示为每个词元的特征维度;

4.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述reassemble块分解的表达式如下:

5.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述卷积解码器将np+1个词元映射成一组np个词元,拼接成类图像的特征表示,操作示意如下:

6.根据权利要求5所述的...

【专利技术属性】
技术研发人员:陈海建游涛
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1