【技术实现步骤摘要】
本专利技术涉及人工智能,具体的是基于vit的单目深度估计和语义分割方法及系统。
技术介绍
1、场景深度估计与语义分割在机器视觉领域扮演着一个重要角色,它使得机器能够加强对现实三维场景的感知和理解,因此在机器人导航,自动驾驶和虚拟现实等任务中有着广泛的应用,从基于手工设计特征到基于双目相机图像训练的模型,再到基于单目相机图像训练的模型,体现了对于人工智能更高层次的追求。
2、处理这些任务都遵循着把模型分为两个部分的惯例,一个编码器和一个解码器。编码器通常是基于一个图像分类的网络,又称为骨干网络,总是在一个大型图像数据集,如imagenet上面进行预训练的,解码器负责将经编码器输出的特征表示进行组合并生成最后的预测结果。
3、基于卷积的骨干网络通过对输入图像下采样来提取不同尺度的特征表示,下采样操作可以逐渐增加感受野,将低层次的特征汇聚形成更抽象的高层次特征,同时确保网络模型对计算和内存开销是可负担的,然而下采样操作在处理密集型任务时表现出明显的缺点,在模型的深层阶段会造成特征分辨率和粒度的丢失,这在解码器处理过程中
...【技术保护点】
1.基于ViT的单目深度估计和语义分割方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的基于ViT的单目深度估计和语义分割方法,其特征在于,所述基于ViT骨干网络的编码器将图像处理成p2个互不重叠的方块,随后这些方块被展平成张量,然后分别使用线性层映射成嵌入表示。
3.根据权利要求2所述的基于ViT的单目深度估计和语义分割方法,其特征在于,所述基于ViT骨干网络的编码器内生成嵌入的过程如下:将一张H×W像素的图片处理成一系列词元其中代表readout词元,D表示为每个词元的特征维度;
4.根据权利要求1所述的基于ViT的
...【技术特征摘要】
1.基于vit的单目深度估计和语义分割方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述基于vit骨干网络的编码器将图像处理成p2个互不重叠的方块,随后这些方块被展平成张量,然后分别使用线性层映射成嵌入表示。
3.根据权利要求2所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述基于vit骨干网络的编码器内生成嵌入的过程如下:将一张h×w像素的图片处理成一系列词元其中代表readout词元,d表示为每个词元的特征维度;
4.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述reassemble块分解的表达式如下:
5.根据权利要求1所述的基于vit的单目深度估计和语义分割方法,其特征在于,所述卷积解码器将np+1个词元映射成一组np个词元,拼接成类图像的特征表示,操作示意如下:
6.根据权利要求5所述的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。