基于发散-聚合注意力的图像描述方法技术

技术编号:24613515 阅读:110 留言:0更新日期:2020-06-24 01:09
本发明专利技术公开了基于发散‑聚合注意力的图像描述方法,获取MS COCO图像描述数据集并预处理:构建多角度观察模型,实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S

Image description method based on divergent aggregate attention

【技术实现步骤摘要】
基于发散-聚合注意力的图像描述方法
本专利技术涉及计算机视觉和自然语言处理
,针对图像描述任务,本专利技术设计了发散-聚合注意力模型。
技术介绍
图像描述任务旨在将图像用自然语言进行描述,该任务对智能机器人、视觉导航、视觉障碍辅助设备、自动医学报告生成等有前景的应用有着重要的推动作用。然而,将图像理解并用自然语言描述处理是人工智能领域要解决的难题,因为视觉模态和语义模态是两个完全不同的模态,如何将视觉和语义有效结合,并利用两种模态直接的相互作用关系是亟需解决的重要的课题。其中,基于注意力机制的编码器解码器框架被绝大多数学者采用,该框架取得了最好的性能,其中注意力机制模仿人脑的机制,即有选择性地关注最重要的信息,同时忽略其他次要的信息。目前的工作基于该框架对注意力模型进行改进。主要分为两个方向:视觉注意力模型和语义注意力模型。视觉注意力模型关注的对象是图像中的网格区域特征或是图像中物体的视觉特征。语义注意力模型关注的对象是从图像中预测出来的语义标签。两种注意力模型分别视觉角度和语义角度提取图像的特征,取得了较好的效果。然而,现有模型没有考虑将不同角度视觉和语义信息有效地聚合在一起。
技术实现思路
为有效利用视觉和语义信息在图像描述过程中的相互作用关系,本专利技术从人类认知世界的两种思维中获得灵感,即发散思维和聚合思维。且已有研究证实,这两种思维在语言学习中起到了重要的作用。本专利技术将这两种思维方式引入到了模型设计中,提出了发散-聚合注意力模型,实现了视觉信息和语义信息的交互。图1是发散-聚合注意力模型的概念图,可以看到通过发散观察和聚合注意力模块,模型产生了更生动准确的描述。本专利技术采用的技术方案为基于发散-聚合注意力的图像描述方法,该方法的实现步骤如下,步骤(1)获取MSCOCO图像描述数据集并预处理:步骤(1.1)获取MSCOCO图像描述数据集,包含图像数据I及其对应的标准描述数据步骤(1.2)对MSCOCO中的描述数据进行预处理。步骤(2)构建多角度观察模型,实现从MSCOCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S*:步骤(2.1)采用目标检测模型挖掘图像中的物体特征集合V。步骤(2.2)采用场景图解析器挖掘图像中的细粒度语义特征集合S*={Sobject,Sattribute,Srelation}。步骤(2.3)将物体特征集合V和细粒度语义特征集合S*分别输入到视觉LSTM和语义LSTM,得到每个时刻t关于视觉的全局特征和语义的全局特征步骤(3)构建聚合注意力模型,将步骤(2)的物体特征集合V,细粒度语义特征集合S*,以及每个时刻t关于视觉的全局特征和语义的全局特征作为模型的输入。该模型由同质注意力和异质注意力这两部分组成。步骤(3.1)同质注意力由一个视觉注意力和三个语义注意力组成,视觉注意力在t时刻从物体特征集合V中筛选出最相关的物体特征三个语义注意力模型从细粒度语义特征集合S*中筛选出最相关的三个语义特征步骤(3.2)构建异质注意力模型。将四个同质注意力得到的四个角度的特征作为输入,异质注意力模型对这四种信息进行综合分析并输出作为多角度信息的最终编码特征。步骤(4)语言生成模型。将步骤(3)得到的输入到语言LSMT中,得到在t时刻的输出并进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的产生的图像描述结果Y。基于产生的描述Y与标准的描述数据计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。附图说明图1:发散-聚合注意力模型概念图。图2:发散-聚合注意力模型框架图。图3:图像描述可视化案例展示图。具体实施方式以下结合附图和实施例对本专利技术进行详细说明。发散-聚合注意力模型分为两个模块:多角度观察模块和聚合注意力模块。该模型用来逐层地聚合视觉信息以及细粒度的语义信息。整体的框架图如图2所示。1.多角度观察模块:多角度观察一共包含四个角度的信息:由物体检测算法得到物体的视觉特征V,以及由scenegraph得到的物体的概念(OBJ)、属性(ATTR)、关系(REL)三种角度的语义特征,视觉特征V={v1,…,vn},v1,…,vn是从一张图片得到的n个视觉物体特征。对于物体词表特征其中是得到的n1个物体词,E代表词嵌入向量,用于将词映射到语义空间中。属性词表特征其中是得到的n2个属性词,关系词表特征其中是得到的n3个关系词。由公式(1)、(2)计算得到视觉全局特征和语义全局特征的平均特征,作为视觉LSTM1v和语义LSTM1s的输入。其中avg函数代表求特征集合的平均特征。公式3、4得到视觉LSTM的输出公式5、6得到语义LSTM的输出和作为视觉和语义指导向量,用来指导模型第二部分的聚合注意力模型。其中LSTM1v表示视觉LSTM模型,其输入将视觉平均向量上一时刻的语言LSTM的隐藏层状态向量以及上一时刻单词的编码向量融合在一起。其中t是指在当前时刻t,t-1代表上一时刻。以上过程体现了模型如何从四个角度发散地观察图像,下面一部分是聚合注意力模型的介绍。2.聚合注意力模型:聚合注意力模块分为两个子模型:同质注意力模型和异质注意力模型,二者分别对应聚合注意力模型的第一层和第二层。同质注意力模型旨在从组成成分相同的集合中找到最合适的元素。而异质注意力模型从不同角度的信息中找到最符合的元素。公式7~9计算了视觉角度下同质注意力模型生成的视觉注意力特征其中公式7体现了视觉信息和语义信息的交互,共同指导视觉注意力模型。αi,t=softmax(ai,t)(8)其中αi,t是计算得到的视觉注意力对第i个视觉特征在第t时刻被分配的权重,为待学习的参数,其中下标a代表视觉角度,上标1代表第一层线性变换,上标2代表第二层线性变换。采用soft-attention的方法得到公式10~12计算了三种语义角度下同质注意力模型生成的语义注意力特征其中i指的是第i个语义元素,t是指当前时刻,S*={obj,attr,rel},为待学习的参数,采用soft-attention的方法得到公式13~18计算了第二层的异质注意力模型如何选择哪一种角度的信息,即从中找到最合适的特征,最终生成的注意力特征为其中是异质注意力模型对四种角度分配的注意力权重。数据集选用图像描述最大的数据集MS-COCO,使用Karpathy的数据集分割方案,将数据集中的5000张图片作为验证集,5000张图片用于测试,其余图片用于训练。首先将本专利技术的结果与其他模型相对比,如表一所示,可见本专利技术在各个图像描述评测指标上均本文档来自技高网...

【技术保护点】
1.基于发散-聚合注意力的图像描述方法,其特征在于:该方法的实现步骤如下,/n步骤(1)获取MS COCO图像描述数据集并预处理:/n步骤(2)构建多角度观察模型,实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S

【技术特征摘要】
1.基于发散-聚合注意力的图像描述方法,其特征在于:该方法的实现步骤如下,
步骤(1)获取MSCOCO图像描述数据集并预处理:
步骤(2)构建多角度观察模型,实现从MSCOCO图像数据I的视觉以及细粒度语义信息的提取,得到图像特征V以及细粒度语义信息S*:
步骤(3)构建聚合注意力模型,将步骤(2)的物体特征集合V,细粒度语义特征集合S*,以及每个时刻t关于视觉的全局特征和语义的全局特征作为模型的输入;该模型由同质注意力和异质注意力这两部分组成;
步骤(4)语言生成模型;将步骤(3)得到的输入到语言LSMT中,得到在t时刻的输出并进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的产生的图像描述结果Y;基于产生的描述Y与标准的描述数据计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。


2.根据权利要求1所述的基于发散-聚合注意力的图像描述方法,其特征在于:步骤(1.1)获取MSCOCO图像描述数据集,包含图像数据I及其对...

【专利技术属性】
技术研发人员:杜卓然冀俊忠张晓丹
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1