聚合语义标记角度的高效视觉Transformer方法技术

技术编号:42895551 阅读:17 留言:0更新日期:2024-09-30 15:13
本发明专利技术涉及计算机视觉技术领域,尤其涉及聚合语义标记角度的高效视觉Transformer方法。本发明专利技术包括以下步骤:S1:对输入图像进行预处理,将其划分为多个图像补丁;S2:采用标记感知位置编码模块对图像补丁进行编码。本发明专利技术结合了标记感知位置编码以及一个自适应聚类的语义标记注意力模块,这个灵活的、对查询敏感的稀疏注意力框架,允许每个查询仅对最相关的少数键值对进行关注;同时通过标记感知位置编码模块将标记附近领域的其他标记进行聚合,来减少标记分组后的信息损失;空间门控前馈网络简化了模型参数的同时提升了空间信息表达,最终实现了性能和计算效率的平衡,优化了模型对重要视觉信息的捕获与表示能力的同时减少了计算量和参数量。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及聚合语义标记角度的高效视觉transformer方法。


技术介绍

1、计算机视觉(computer vision,cv),作为人工智能重要的子领域,具有广泛的应用,在多个场景中扮演着重要角色。其涵盖的主要应用范围包括图像分类、目标检测、目标跟踪、语义分割以及图像生成等。为了更有效地处理这些任务,其中最具有代表性的深度学习模型如卷积神经网络(convolutional neural network,cnn)已在计算机视觉领域取得突破性成就,并成为多个行业的技术支柱。不同优秀的网络结构是这些深度模型成功的关键所在,能够从图像中提取关键特征,从而提升算法的准确性。这样的进步不只推动了计算机视觉的发展,也对各个现代产业的技术进步起到了支持作用。

2、自alexnet被提出以来,卷积神经网络已成为计算机视觉领域的主流架构,并且在诸多视觉任务上展现卓越性能。卷积神经网络的结构涵盖了卷积层、池化层和全连接层这几部分,其工作原理是通过不断堆叠的卷积层逐步扩大感受野,最终覆盖整个图像,从而实现对图像从局部到全局的特征提取。平移不本文档来自技高网...

【技术保护点】

1.聚合语义标记角度的高效视觉Transformer方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述标记感知位置编码模块包括多个分支,不同分支使用不同的扩张率以覆盖不同的感受野范围。

3.根据权利要求2所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述标记感知位置编码模块采用个分支,扩张率的选择范围为。

4.根据权利要求1所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述聚合语义标记注意力机制采用局部敏感哈希技术,以高效地...

【技术特征摘要】

1.聚合语义标记角度的高效视觉transformer方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述标记感知位置编码模块包括多个分支,不同分支使用不同的扩张率以覆盖不同的感受野范围。

3.根据权利要求2所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述标记感知位置编码模块采用个分支,扩张率的选择范围为。

4.根据权利要求1所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述聚合语义标记注意力机制采用局部敏感哈希技术,以高效地聚合具有相对较小欧几里得距离的查询向量,lsh的哈希值的表达式为:

5.根据权利要求4所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述哈希值的最终输出通过下列公式确定:

6...

【专利技术属性】
技术研发人员:冯欣刘炜昱卢玲张杰
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1