基于双向状态空间模型的视觉表征方法与装置制造方法及图纸

技术编号:40984902 阅读:33 留言:0更新日期:2024-04-18 21:29
本发明专利技术公开了一种基于双向状态空间模型的视觉表征方法——Vision Mamba(Vim)。Vim模型首先将输入图像分割为一系列图像块,并将其线性投影为向量序列输入至Vim模块中进行高效序列建模。该方法首次将状态空间模型Mamba应用于计算机视觉领域,并引入双向的状态空间建模方法来优化模型在处理视觉数据时缺乏全局视觉的问题,同时利用位置嵌入提供空间信息的位置感知能力,使模型在诸如语义分割、目标检测和实例分割等密集预测任务中表现更稳健。此外,得益于Mamba算法的高效设计,Vim具有次二次时间复杂度计算特性及线性内存复杂度,相较于基于Transformer结构的视觉模型有着明显的效率优势。本发明专利技术还提供了相应的基于双向状态空间模型的视觉表征装置。

【技术实现步骤摘要】

本专利技术属于深度学习与计算机视觉,更具体地,涉及一种基于双向状态空间模型的视觉表征方法与装置


技术介绍

1、近年来,随着深度学习技术的不断发展,视觉表征学习领域涌现出许多创新模型和方法,为图像处理任务带来了新的可能性。在这个领域的探索中,卷积神经网络(cnn)一直是基础模型,取得了在图像分类、目标检测和语义分割等领域的突破性成果。其通过局部感受野和参数共享机制,成功捕捉了空间相关性,然而,随着任务复杂度的提升和对全局上下文理解需求的增强,cnn在处理大规模或长距离依赖关系时显露出一定的局限性。

2、为了克服这些局限性,transformer架构应运而生,最初在自然语言处理领域取得了显著成就。随后,vision transformer(vit)将transformer引入计算机视觉领域,将图像视为一维序列数据进行处理。这种方法赋予了每个像素适应性的全局上下文信息,有效地解决了cnn固定滤波器难以捕获位置变化特征的问题。然而,对于高分辨率图像而言,vit中的自注意力计算面临着内存消耗和计算复杂度的挑战,尤其是在处理密集预测任务时效率受限。...

【技术保护点】

1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:

3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:

4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如下子步骤:

5.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.3)具体包括如下子步骤:p>

6.一种基...

【技术特征摘要】

1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:

3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:

4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如...

【专利技术属性】
技术研发人员:王兴刚朱良辉廖本成李综名刘文予
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1