【技术实现步骤摘要】
本专利技术涉及计算机视觉,尤其涉及聚合语义标记角度的高效视觉transformer方法。
技术介绍
1、计算机视觉(computer vision,cv),作为人工智能重要的子领域,具有广泛的应用,在多个场景中扮演着重要角色。其涵盖的主要应用范围包括图像分类、目标检测、目标跟踪、语义分割以及图像生成等。为了更有效地处理这些任务,其中最具有代表性的深度学习模型如卷积神经网络(convolutional neural network,cnn)已在计算机视觉领域取得突破性成就,并成为多个行业的技术支柱。不同优秀的网络结构是这些深度模型成功的关键所在,能够从图像中提取关键特征,从而提升算法的准确性。这样的进步不只推动了计算机视觉的发展,也对各个现代产业的技术进步起到了支持作用。
2、自alexnet被提出以来,卷积神经网络已成为计算机视觉领域的主流架构,并且在诸多视觉任务上展现卓越性能。卷积神经网络的结构涵盖了卷积层、池化层和全连接层这几部分,其工作原理是通过不断堆叠的卷积层逐步扩大感受野,最终覆盖整个图像,从而实现对图像从局部到全
...【技术保护点】
1.聚合语义标记角度的高效视觉Transformer方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述标记感知位置编码模块包括多个分支,不同分支使用不同的扩张率以覆盖不同的感受野范围。
3.根据权利要求2所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述标记感知位置编码模块采用个分支,扩张率的选择范围为。
4.根据权利要求1所述的聚合语义标记角度的高效视觉Transformer方法,其特征在于,所述聚合语义标记注意力机制采用局部敏
...【技术特征摘要】
1.聚合语义标记角度的高效视觉transformer方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述标记感知位置编码模块包括多个分支,不同分支使用不同的扩张率以覆盖不同的感受野范围。
3.根据权利要求2所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述标记感知位置编码模块采用个分支,扩张率的选择范围为。
4.根据权利要求1所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述聚合语义标记注意力机制采用局部敏感哈希技术,以高效地聚合具有相对较小欧几里得距离的查询向量,lsh的哈希值的表达式为:
5.根据权利要求4所述的聚合语义标记角度的高效视觉transformer方法,其特征在于,所述哈希值的最终输出通过下列公式确定:
6...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。