【技术实现步骤摘要】
本专利技术属于深度学习与计算机视觉,更具体地,涉及一种基于双向状态空间模型的视觉表征方法与装置。
技术介绍
1、近年来,随着深度学习技术的不断发展,视觉表征学习领域涌现出许多创新模型和方法,为图像处理任务带来了新的可能性。在这个领域的探索中,卷积神经网络(cnn)一直是基础模型,取得了在图像分类、目标检测和语义分割等领域的突破性成果。其通过局部感受野和参数共享机制,成功捕捉了空间相关性,然而,随着任务复杂度的提升和对全局上下文理解需求的增强,cnn在处理大规模或长距离依赖关系时显露出一定的局限性。
2、为了克服这些局限性,transformer架构应运而生,最初在自然语言处理领域取得了显著成就。随后,vision transformer(vit)将transformer引入计算机视觉领域,将图像视为一维序列数据进行处理。这种方法赋予了每个像素适应性的全局上下文信息,有效地解决了cnn固定滤波器难以捕获位置变化特征的问题。然而,对于高分辨率图像而言,vit中的自注意力计算面临着内存消耗和计算复杂度的挑战,尤其是在处理密集预测任
...【技术保护点】
1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:
3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:
4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如下子步骤:
5.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.3)具体包括如下子步骤:
...【技术特征摘要】
1.一种基于双向状态空间模型的视觉表征方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(1.2)具体包括如下子步骤:
3.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.1)具体包括如下子步骤:
4.如权利要求1或2所述的基于双向状态空间模型的视觉表征方法,其特征在于,所述步骤(2.2)具体包括如...
【专利技术属性】
技术研发人员:王兴刚,朱良辉,廖本成,李综名,刘文予,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。