【技术实现步骤摘要】
基于GAT关系推理的视觉问答方法
[0001]本专利技术属于图像处理
,具体涉及基于GAT关系推理的视觉问答方法。
技术介绍
[0002]视觉问答(Visual Question Answering,VQA)系统的目标是根据图片提供的信息回答问题,因其丰富的应用领域而具有重要的研究意义,由于现有的视觉问答方法侧重于构建新的注意力机制而使得模型越来越复杂,忽略了需要空间推理、语义关系甚至场景理解问题的研究。大多数的VQA系统框架主要包括图像编码器、问题编码器、多模态融合和答案预测模块。使用卷积神经网络学习图像表示和循环神经网络学习文本表示,然后将两个表示融合到同一特征空间用于答案预测。在VQA2.0数据集中,涉及一个以上物体的问答对占据了大约70%的比例。因此对VQA这样的多模态任务来说是不够的。
[0003]最近视觉问答探索图像更高层次的表示形式,特别是使用对象检测器和基于图的结构来更好地理解图像物体关系。但是其主要存在两个缺点,首先一些模型进行隐式关系推理,如MAC、Murel,这些模型在没有使用显式关系的情 ...
【技术保护点】
【技术特征摘要】
1.基于GAT关系推理的视觉问答方法,其特征在于,具体按照以下步骤实施:步骤1,问题嵌入:将问题划分为独立单词,利用Glove词向量模型对单词进行向量化表示,使用双向GRU网络进行句子特征提取,得到问题特征向量Q;步骤2:场景图生成:使用Faster R
‑
CNN结合ResNet
‑
101网络模型提取图像的区域特征和空间特征,增加属性检测器,获得物体的属性特征,GAT2R模型对图片内对象进行结构化建模,生成全连接场景图,图节点表示图像中的物体,图的边为节点对之间的关系,通过关系解码器获得场景内节点对之间的交互关系;步骤3:场景图更新:通过图注意力网络学习以问题引导的动态场景图,通过执行注意力操作来突出步骤1产生的词向量和步骤2产生的节点和边的相关性,然后通过图注意力卷积网络更新节点;步骤4:多模态融合和答案预测:通过求和步骤3产生的场景图信息,并通过最大池化来计算图的全局向量表示,通过一个简单的元素乘积融合问题和图的全局向量表示,并将其输入到全连接层以预测答案。2.根据权利要求1所述的基于GAT关系推理的视觉问答方法,其特征在于,所述步骤1中,具体为:步骤1.1:将输入问题根据标点符号和空格,划分为单独的单词;输入的问题转化为单词数组,表示为如下公式:q=[q1,q2,...,q
N
]其中,N为句子中包含的单词数,q1,q2,...,q
N
为N个单独的单词,q为单词集合;步骤1.2:使用Glove词向量模型获得单词向量h,表示为:h=[h1,h2,...,h
N
]其中,h
N
为单词q
N
的词向量,h为经过Glove词向量模型训练之后的单词向量集合;步骤1.3:使用双向GRU网络进行句子特征提取,并在双向GRU的最终输出向量上使用自注意力机制,得到问题特征向量Q。3.根据权利要求1所述的基于GAT关系推理的视觉问答方法,其特征在于,所述步骤2中,具体为:步骤2.1:场景图节点构造;Faster R
‑
CNN结合ResNet
‑
101网络模型是将Faster R
‑
CNN目标检测算法中的骨干网络替换为ResNet
‑
101网络,还增加了一个额外的输出层用来判断对象属性,BUTD模型将对象所在区域平均池化卷积特征与对象类向量连接起来,输入到一个额外的输出层,对于图像内每一个对象边界框都得到<属性类,对象类>这样的二元组,将Faster R
‑
CNN结合ResNet
‑
101网络模型产生的定位信息和BUTD模型产生的二元组拼接在一起就构成了场景图节点;选取置信度最大的前K个物体候选框作为场景图的候选节点;步骤2.2:场景图边构建,生成场景图G={V,E};其中,V表示节点集合,即步骤2.1生成的场景图节点集合;E表示这些节点之间的关系集合,考虑了所有边的可能性,边代表了节点之间的各种可能关系,通过一层前馈网络和归一化层将图像中所有对象向量对转换为边向量e
i,j
,如下公式所示,所有边向量的集合为E;e
i,j
=LayerNorm(FeedForward([v
i
,v
j
]))i,j=1
…
K其中,e
i,j
代表节点i和节点j之间的场景图边;v
i
,v
j
为第i,j的节点,K为...
【专利技术属性】
技术研发人员:缪亚林,李臻,童萌,白宛婷,李国栋,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。