System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Transformer结构的分层多尺度图像描述方法技术_技高网
当前位置: 首页 > 专利查询>厦门大学专利>正文

基于Transformer结构的分层多尺度图像描述方法技术

技术编号:40169638 阅读:8 留言:0更新日期:2024-01-26 23:40
基于Transformer结构的分层多尺度图像描述方法,涉及图像描述技术。针对现有的图像描述方法存在的视觉特征感知尺度单一,从而导致描述效果较差的缺点。提出一种多尺度的分层Transformer结构,可以利用多尺度的视觉特征信息完成准确的图像描述任务。为适应图像描述任务中的多尺度视觉特征设计三种新结构:跨尺度注意、对齐分配解码器和多尺度局部聚合。跨尺度注意是在不同尺度上实现全面的特征交互,并将特征转换为统一的张量形状。多尺度局部聚合的目的是聚合和增强多尺度特征,在此基础上进一步提出对齐分配解码器,自适应地选择最适合的特征尺度完成图像描述任务。

【技术实现步骤摘要】

本专利技术涉及图像描述,具体是涉及一种基于transformer结构的分层多尺度图像描述方法。


技术介绍

1、在日常生活中,人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系,从而感知图像的高层语义信息,但是计算机作为工具只能提取到数字图像的低层数据特征,而无法像人类大脑一样生成高层语义信息,这就是计算机视觉中的“语义鸿沟”问题。图像描述(字幕)技术(image caption generation)的本质就是将计算机提取的图像视觉特征转化为高层语义信息,即解决“语义鸿沟”问题,使计算机生成与人类大脑理解相近的对图像的文字描述,从而可以对图像进行分类、检索、分析等处理任务。

2、图像描述技术(ir:image caption),就是以图像为输入,通过数学模型和计算使计算机输出对应图像的自然语言描述文字,使计算机拥有“看图说话”的能力,是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务[1-4]。它的主要挑战在于识别图像中的对象及其复杂的关系和不同的属性。图像字幕的快速发展建立在高级视觉骨干提取的描述性视觉特征之上,例如resnet[5,6]和vit[7,8].各种基于注意力的方法[9]和基于强化学习的优化方案[10]的出现也大大提高了模型性能。

3、在视觉理解方面,大多数现有的图像描述模型通常从单个感知领域感知视觉特征信息。典型的图像描述模型仅基于视觉主干网络的最终输出解码出描述语句,例如resnet[5]或resnext[6]的最后一个卷积特征图。这种方法的优点在于传输的是高级的视觉语义特征信息,这样可以降低描述图像的难度。然而,这些单尺度特征也有明显的缺点。例如,它们通常来自低分辨率的特征图,在视觉表示方面容易出现小物体的重叠的现象。这种情况将使图像描述模型在对象计数和关系建模中出现混淆。此外,这些高级特征通常包含较少的中级或低级视觉语义,例如物体纹理、物体属性等信息,导致细粒度物体的描述不够准确,描述效果无法满足需求。

4、一种顺势而生的解决方案是用多尺度视觉感知补充图像描述模型,例如,在视觉骨干网络中构建特征金字塔。但是图像描述模型很难直接嵌入特征金字塔结构。因为与对象检测网络不同,图像描述模型通常对所有描述词汇都有一个预测器,直接执行多尺度预测是不可行的。在这种情况下,模型通常需要考虑来自不同尺度的视觉信息的贡献。同时由于特征解析和语义信息的差异,如何融合不同的语义特征来生成有效的视觉表示也是一项有挑战性的任务。

5、目前多尺度建模是深度学习中的一个新兴研究课题,由两个主要类别的解决方案组成,即图像金字塔和特征融合。图像金字塔是一组具有相同视觉内容但分辨率不同的图像,一般分为两种图像金字塔:1)高斯金字塔[11]和2)拉普拉斯金字塔[12]。在高斯金字塔中,通过删除较低级别(较高分辨率)图像中的连续的行和列来形成更高级别的(低分辨率)图像。拉普拉斯金字塔是由高斯金字塔形成的,是一个"高斯差值金字塔"。每一层的图像是由当前高斯金字塔中的第i层与高斯金字塔中的第i+1层的向上采样结果之差得到的。而特征提取器,它们可以大致分为三类:1)多尺度输入,2)多尺度特征融合和3)多尺度输出。多尺度输入网络[13]是一种使用多个图像作为输入(金字塔)的图像,然后融合输出结果。在多尺度特征融合网络里,有两种常见的类型。第一个是并行多分支网络[14],第二个是串行跳层连接结构[15],两者都在不同的感知维度下执行特征提取。多尺度特征输出网络[16]用于在不同的特征尺度上进行预测,最后融合它们的预测结果。

6、参考文献:

7、[1]xuanyi dong,linchao zhu,de zhang,yi yang,and fei wu.2018.fastparameter adaptation for few-shot image captioning and visual questionanswering.in acm mm.

8、[2]kelvin xu,jimmy ba,ryan kiros,kyunghyun cho,aaron courville,ruslansalakhudinov,rich zemel,and yoshua bengio.2015.show,attend and tell:neuralimage caption generation with visual attention.in icml.

9、[3]xu yan,zhengcong fei,zekang li,shuhui wang,qingming huang,and qitian.2021.semi-autoregressive image captioning.in acm mm.

10、[4]xu yang,chongyang gao,hanwang zhang,and jianfeicai.2020.hierarchical scene graph encoder-decoder for image paragraphcaptioning.in acm mm.

11、[5]kaiming he,xiangyu zhang,shaoqing ren,and jian sun.2016.deepresidual learning for image recognition.in cvpr.

12、[6]saining xie,ross girshick,piotr dollár,zhuowen tu,and kaiminghe.2017.aggregated residual transformations for deep neural networks.in cvpr.

13、[7]alexey dosovitskiy,lucas beyer,alexander kolesnikov,dirkweissenborn,xiaohua zhai,thomas unterthiner,mostafa dehghani,matthiasminderer,georg heigold,sylvain gelly,et al.2020.an image is worth 16x16words:transformers for image recognition at scale.in iclr.

14、[8]dong zhang,hanwang zhang,jinhui tang,meng wang,xiansheng hua,andqianru sun.2020.feature pyramid transformer.in eccv.

15、[9]peter anderson,xiaodong he,chris buehler,damien teney,markjohnson,stephen gould,and lei zhang.2018.bottom-up and top-down att本文档来自技高网...

【技术保护点】

1.一种多尺度的分层Transformer结构,其特征在于包括跨尺度注意结构、对齐分配解码器和多尺度局部聚合结构;

2.一种基于Transformer结构的分层多尺度图像描述方法,其特征在于包括以下步骤:

3.如权利要求2所述一种基于Transformer结构的分层多尺度图像描述方法,其特征在于在步骤1)中,所述编码器由相同的L层组成;跨尺度注意模块使模型能接收多尺度特征,允许一个尺度上的特征来聚合来自其他尺度的信息;在层l中,结构表示为:

4.如权利要求2所述一种基于Transformer结构的分层多尺度图像描述方法,其特征在于在步骤2)中,所述对齐分配解码器模块包括动态路由交叉注意力机制和直接连接的交叉注意力机制;

5.如权利要求2所述一种基于Transformer结构的分层多尺度图像描述方法,其特征在于在步骤3)中,所述基于多尺度局部聚合模块,通过利用多头机制实现不同尺度的局部特征聚合的具体步骤为:计算每个网格之间的距离,最后一个特征图Fv3中第m个和第n个向量的几何特征是两个2D索引,分别表示为(xm,ym)和(xn,yn)的;使用两种距离作为网格之间的相对距离,即欧几里得距离和曼哈顿距离;第m个和第n个向量之间的欧几里得距离由下式给出:

6.如权利要求2所述一种基于Transformer结构的分层多尺度图像描述方法,其特征在于在步骤3)中,所述模型通过监督学习进行预训练再通过强化学习进行微调的具体步骤为:

...

【技术特征摘要】

1.一种多尺度的分层transformer结构,其特征在于包括跨尺度注意结构、对齐分配解码器和多尺度局部聚合结构;

2.一种基于transformer结构的分层多尺度图像描述方法,其特征在于包括以下步骤:

3.如权利要求2所述一种基于transformer结构的分层多尺度图像描述方法,其特征在于在步骤1)中,所述编码器由相同的l层组成;跨尺度注意模块使模型能接收多尺度特征,允许一个尺度上的特征来聚合来自其他尺度的信息;在层l中,结构表示为:

4.如权利要求2所述一种基于transformer结构的分层多尺度图像描述方法,其特征在于在步骤2)中,所述对齐分配解码器模块包括动态路由交叉注意力机制和直接连接的交...

【专利技术属性】
技术研发人员:纪荣嵘孙晓帅刘宇琪王昊为纪家沂
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1