基于发散-聚合注意力的图像描述方法技术

技术编号：24613515 阅读：110 留言：0更新日期：2020-06-24 01:09

本发明专利技术公开了基于发散‑聚合注意力的图像描述方法，获取MS COCO图像描述数据集并预处理：构建多角度观察模型，实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取，得到图像特征V以及细粒度语义信息S

Image description method based on divergent aggregate attention

全部详细技术资料下载

【技术实现步骤摘要】
基于发散-聚合注意力的图像描述方法
本专利技术涉及计算机视觉和自然语言处理
，针对图像描述任务，本专利技术设计了发散-聚合注意力模型。
技术介绍
图像描述任务旨在将图像用自然语言进行描述，该任务对智能机器人、视觉导航、视觉障碍辅助设备、自动医学报告生成等有前景的应用有着重要的推动作用。然而，将图像理解并用自然语言描述处理是人工智能领域要解决的难题，因为视觉模态和语义模态是两个完全不同的模态，如何将视觉和语义有效结合，并利用两种模态直接的相互作用关系是亟需解决的重要的课题。其中，基于注意力机制的编码器解码器框架被绝大多数学者采用，该框架取得了最好的性能，其中注意力机制模仿人脑的机制，即有选择性地关注最重要的信息，同时忽略其他次要的信息。目前的工作基于该框架对注意力模型进行改进。主要分为两个方向：视觉注意力模型和语义注意力模型。视觉注意力模型关注的对象是图像中的网格区域特征或是图像中物体的视觉特征。语义注意力模型关注的对象是从图像中预测出来的语义标签。两种注意力模型分别视觉角度和语义角度提取图像的特征，取得了较好的效果。然而，现有模型没有考虑将不同角度视觉和语义信息有效地聚合在一起。
技术实现思路
为有效利用视觉和语义信息在图像描述过程中的相互作用关系，本专利技术从人类认知世界的两种思维中获得灵感，即发散思维和聚合思维。且已有研究证实，这两种思维在语言学习中起到了重要的作用。本专利技术将这两种思维方式引入到了模型设计中，提出了发散-聚合注意力模型，实现了视觉信息和语义信息的交互。图1是发散-聚合...

【技术保护点】
1.基于发散-聚合注意力的图像描述方法，其特征在于：该方法的实现步骤如下，/n步骤(1)获取MS COCO图像描述数据集并预处理：/n步骤(2)构建多角度观察模型，实现从MS COCO图像数据I的视觉以及细粒度语义信息的提取，得到图像特征V以及细粒度语义信息S

【技术特征摘要】
1.基于发散-聚合注意力的图像描述方法，其特征在于：该方法的实现步骤如下，
步骤(1)获取MSCOCO图像描述数据集并预处理：
步骤(2)构建多角度观察模型，实现从MSCOCO图像数据I的视觉以及细粒度语义信息的提取，得到图像特征V以及细粒度语义信息S*：
步骤(3)构建聚合注意力模型，将步骤(2)的物体特征集合V，细粒度语义特征集合S*，以及每个时刻t关于视觉的全局特征和语义的全局特征作为模型的输入；该模型由同质注意力和异质注意力这两部分组成；
步骤(4)语言生成模型；将步骤(3)得到的输入到语言LSMT中，得到在t时刻的输出并进行线性变换与Softmax函数分类，得到最终整个解码器在t时刻的输出yt，不同时刻的输出组成最后的产生的图像描述结果Y；基于产生的描述Y与标准的描述数据计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型。

2.根据权利要求1所述的基于发散-聚合注意力的图像描述方法，其特征在于：步骤(1.1)获取MSCOCO图像描述数据集，包含图像数据I及其对...

【专利技术属性】
技术研发人员：杜卓然，冀俊忠，张晓丹，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人