System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于双向状态空间模型的视觉表征方法与装置制造方法及图纸_技高网

基于双向状态空间模型的视觉表征方法与装置制造方法及图纸

技术编号:40984902 阅读:27 留言:0更新日期:2024-04-18 21:29
本发明专利技术公开了一种基于双向状态空间模型的视觉表征方法——Vision Mamba(Vim)。Vim模型首先将输入图像分割为一系列图像块,并将其线性投影为向量序列输入至Vim模块中进行高效序列建模。该方法首次将状态空间模型Mamba应用于计算机视觉领域,并引入双向的状态空间建模方法来优化模型在处理视觉数据时缺乏全局视觉的问题,同时利用位置嵌入提供空间信息的位置感知能力,使模型在诸如语义分割、目标检测和实例分割等密集预测任务中表现更稳健。此外,得益于Mamba算法的高效设计,Vim具有次二次时间复杂度计算特性及线性内存复杂度,相较于基于Transformer结构的视觉模型有着明显的效率优势。本发明专利技术还提供了相应的基于双向状态空间模型的视觉表征装置。

【技术实现步骤摘要】

本专利技术属于深度学习与计算机视觉,更具体地,涉及一种基于双向状态空间模型的视觉表征方法与装置


技术介绍

1、近年来,随着深度学习技术的不断发展,视觉表征学习领域涌现出许多创新模型和方法,为图像处理任务带来了新的可能性。在这个领域的探索中,卷积神经网络(cnn)一直是基础模型,取得了在图像分类、目标检测和语义分割等领域的突破性成果。其通过局部感受野和参数共享机制,成功捕捉了空间相关性,然而,随着任务复杂度的提升和对全局上下文理解需求的增强,cnn在处理大规模或长距离依赖关系时显露出一定的局限性。

2、为了克服这些局限性,transformer架构应运而生,最初在自然语言处理领域取得了显著成就。随后,vision transformer(vit)将transformer引入计算机视觉领域,将图像视为一维序列数据进行处理。这种方法赋予了每个像素适应性的全局上下文信息,有效地解决了cnn固定滤波器难以捕获位置变化特征的问题。然而,对于高分辨率图像而言,vit中的自注意力计算面临着内存消耗和计算复杂度的挑战,尤其是在处理密集预测任务时效率受限。

3、在这一背景下,引入了状态空间模型(state space model,ssm),这是一种从连续系统理论发展而来的建模框架。ssm具有线性时间复杂度和硬件友好的特性,在处理序列数据,特别是超长序列时展现了巨大的潜力。一些基于ssm的方法,如s4、mamba等,成功应用于音频、视频以及其他多种序列数据的任务中,有效解决了长期依赖关系的建模问题。在某些场景下,这些基于ssm的方法甚至表现出了优于传统transformer的可扩展性和计算效率。

4、总体而言,深度学习技术在视觉表征学习领域带来了多样的模型和方法。卷积神经网络(cnn)在图像处理中发挥着关键作用,但在处理全局上下文和长距离依赖关系方面存在一些限制。transformer架构及其在计算机视觉领域的应用(如vision transformer)通过引入自注意力机制解决了一些问题,但在处理复杂任务和高分辨率图像时仍然面临挑战。与此同时,基于状态空间模型的方法(如s4、mamba)在处理序列数据上表现出了线性时间复杂度和硬件友好的特性,为长期依赖关系建模提供了有效的解决方案。未来,深度学习技术的发展将继续推动视觉表征学习的进步,为图像处理领域带来更多可能性。


技术实现思路

1、为了应对当前视觉表征学习领域中面临的挑战,特别是在处理大规模高分辨率图像和长距离依赖关系时的问题,我们提出了一项新颖的解决方案。该方案以状态空间模型为基础,旨在探索如何借助双向状态空间模型的优势来解决视觉数据的全局上下文理解和位置敏感性问题。我们设计并引入了名为vision mamba(vim)的新架构,结合了mamba算法的高效设计,采用双向压缩建模以适应视觉任务的特性,并通过位置嵌入提高模型的空间感知能力,为视觉表征学习提供了通用而高效的解决方案。通过引入双向状态空间建模,vim在全局上下文理解方面取得了显著的进展。其双向压缩建模使其能够更好地捕捉长距离依赖关系,提高了模型的适应性。同时,位置嵌入的引入增强了vim在空间感知方面的能力,使其更好地理解图像中不同区域的特征。这一创新设计的组合使vim成为一个在各种任务中均能取得卓越成绩的全面视觉表征学习模型。值得强调的是,vim不仅在性能方面表现出色,而且在计算资源利用上表现出了高效性。其较低的gpu内存占用、flops和推理时间成本为实际应用提供了可行的解决方案。这使得vim不仅是一种理论创新,更是一项具有实际应用潜力的技术成果。总的来说,通过引入vim架构,我们成功地将状态空间模型的优势融入视觉表征学习领域,提供了一种全面、高效的解决方案。这一创新有望为视觉表征学习技术的未来发展开辟新的方向,为图像处理领域带来更为灵活和强大的工具。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于双向状态空间模型的视觉表征方法,包括以下步骤:

3、(1)将二维图像转换成一维长序列。包括以下子步骤;

4、(1.1)对二维图像进行均匀的裁剪操作,获得一组图像块其中h为图像的高度,w为图像的宽度,c为图像的通道数,p为裁剪后的正方形图像块的边长,n为裁剪后得到的图像块的总数量。

5、(1.2)将裁剪后得到的一组图像块转换为一维的序列,公式如下:

6、

7、其中表示第i个图像块,为线性投影参数矩阵,为类别令牌,为位置嵌入,d为线性投影后图像块的维度。具体包括如下子步骤:

8、(1.2.1)使用线性投影将每一个图像块转换到对于每一个图像块,投影矩阵为同一个可学习的参数矩阵维度转换后组成序列

9、(1.2.2)将类别令牌xcls拼接到由维度转换之后的图像块组成的序列的首端,使序列的长度增加。

10、(1.2.3)将位置嵌入与序列相加,得到待输入模型中的序列数据

11、(2)使用多个vim块堆叠成vim编码器,对输入序列进行建模。包括以下子步骤:

12、(2.1)对输入序列进行状态空间建模前的预处理操作。具体包括如下子步骤:

13、(2.1.1)对上一层vim块的输出tl-1执行归一化操作得到其中b为批次大小,m为序列长度,d为序列隐藏维度。

14、(2.1.2)使用线性层对t′l-1进行维度变换,得到和其中d为变换后的隐藏维度。

15、(2.2)对进行正向状态空间建模。具体包括如下子步骤:

16、(2.2.1)对序列执行一维卷积操作,并使用silu函数进行激活,得到x′o。

17、(2.2.2)根据x′o计算得到状态空间模型参数矩阵co。

18、(2.2.3)执行状态空间建模操作,得到公式如下:

19、

20、(2.2.4)将yo与经过激活函数silu后的z进行矩阵点乘操作,得到正向状态空间建模的结果,公式如下:

21、y′forward=yo·silu(z)

22、(2.3)对进行反向状态空间建模。具体包括如下子步骤:

23、(2.3.1)对序列x执行序列翻转操作,使序列的位置前后互换。

24、(2.3.2)对翻转后的序列执行一维卷积操作,并使用silu函数进行激活,得到

25、(2.3.3)根据计算得到状态空间模型参数矩阵co。

26、(2.3.4)执行状态空间建模操作,得到公式如下:

27、

28、(2.3.5)将与经过激活函数silu后的z进行矩阵点乘操作,得到反向状态空间建模的结果,公式如下:

29、

30、(2.4)将双向状态空间建模后得到的正向建模序列y′forward和反向建模序列y′backward与输入序列完成残差连接,得到输出序列公式如下:

31、tl=linear(y′forward+y′backward本文档来自技高网...

【技术保护点】

1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:

3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:

4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如下子步骤:

5.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.3)具体包括如下子步骤:

6.一种基于双向状态空间模型的视觉表征装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-5中任一项所述的基于双向状态空间模型的视觉表征方法。

【技术特征摘要】

1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:

3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:

4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如...

【专利技术属性】
技术研发人员:王兴刚朱良辉廖本成李综名刘文予
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1