视觉问答方法、装置、设备及存储介质制造方法及图纸

技术编号：36759187 阅读：12 留言：0更新日期：2023-03-04 10:52

本发明专利技术涉及计算机视觉技术领域，公开了一种视觉问答方法、装置、设备及存储介质，所述方法包括：通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵；通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征；通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据；根据所述问题词与图像区域的密集交互数据预测与问题相对应的正确答案；通过上述方式，在得到图像视觉内容和问题文本内容后，通过空间图卷积网络与协同注意力网络以串联的方式相结合的方式确定问题词与图像区域的密集交互数据，然后预测与问题相对应的正确答案，从而能够有效提高预测答案的准确性。案的准确性。案的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答方法、装置、设备及存储介质

[0001]本专利技术涉及计算机视觉
，尤其涉及视觉问答方法、装置、设备及存储介质。

技术介绍

[0002]视觉问答的任务要求是能够根据图像和问题的内容推断出正确答案，对于视觉问答，早期的研究是在整个图像上运用卷积神经网络提取图像的全局特征，然后运用词袋模型或循环神经网络对问题特征进行编码，然后采用向量拼接或哈达玛积简单的融合两种模态的特征以推测问题的答案，虽然上述网络模型能够合理有效地解决视觉问答任务，但使用图像的全局特征作为视觉输入，会引入大量的噪声，无法关注与问题最相关的图像区域，造成预测与问题相对应的正确答案的准确性较低。
[0003]上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种视觉问答方法、装置、设备及存储介质，旨在解决现有技术预测与问题相对应的正确答案的准确性较低的技术问题。
[0005]为实现上述目的，本专利技术提供了一种视觉问答方法，所述视觉问答方法包括以下步骤：
[0006]通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵；
[0007]通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征；
[0008]通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据；
[0009]根据所述问题词与图像区域的密集交互数据预测与问题相对应的正确答案。r/>[0010]可选地，所述通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵，包括：
[0011]获取图像视觉内容和问题文本内容；
[0012]通过ResNet
‑
101的Faster R
‑
CNN检测器对所述图像视觉内容进行特征提取，得到若干数量的图像视觉区域特征；
[0013]对所述问题文本内容进行裁剪，得到若干数量的单词；
[0014]在所述单词的数量等于预设数量阈值时，通过预设Glove模型对所述若干数量的单词进行词嵌入，得到目标维的词向量；
[0015]通过目标门控循环神经网络根据所述目标维词向量生成相对应的词特征序列；
[0016]通过卷积神经网络根据所述词特征序列得到目标维度的问题特征向量；
[0017]通过图学习器根据所述若干数量的图像视觉区域特征和所述目标维度的问题特征向量生成目标邻接矩阵。
[0018]可选地，所述通过图学习器根据所述若干数量的图像视觉区域特征和所述目标维度的问题特征向量生成目标邻接矩阵，包括：
[0019]根据所述若干数量的图像视觉区域特征得到视觉对象特征和视觉几何特征；
[0020]将所述视觉对象特征和视觉几何特征进行串联，得到图像特征向量；
[0021]通过多层感知机将所述图像特征向量非线性投影至所述目标维度的子空间中；
[0022]在所述子空间对所述图像特征向量和所述目标维度的问题特征向量进行特征融合；
[0023]根据融合后的特征向量得到视觉区域成对组合；
[0024]通过二元关系推理策略和所述视觉区域成对组合生成目标邻接矩阵。
[0025]可选地，所述通过二元关系推理策略和所述视觉区域成对组合生成目标邻接矩阵，包括：
[0026]根据所述视觉区域成对组合得到相对应的返回值；
[0027]通过二元关系推理策略对所述视觉区域成对组合进行推理；
[0028]对推理后的视觉区域成对组合的第一个维度进行压缩，得到二维数组；
[0029]将所述二维数组进行转置相加，根据相加后的二维数组和softmax函数生成目标邻接矩阵。
[0030]可选地，所述通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征，包括：
[0031]通过空间图卷积网络对所述目标邻接矩阵的节点特征进行更新，得到更新后的节点特征；
[0032]通过目标数量的高斯核对所述更新后的节点特征进行串联，得到目标图像节点特征。
[0033]可选地，所述通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据，包括：
[0034]根据多头注意力层、残差连接和层归一化、前向传播层构建自注意力单元；
[0035]根据编码器
‑
解码器策略、自注意力单元以及引导注意力单元深度级联协同注意力网络；
[0036]将所述目标图像节点特征和问题词特征序列输入至所述协同注意力网络，以使所述协同注意力网络输出问题词与图像区域的密集交互数据。
[0037]可选地，所述根据所述问题词与图像区域的密集交互数据预测与问题相对应的正确答案，包括：
[0038]通过目标全连接神经网络和softmax函数根据所述问题词与图像区域的密集交互数据得到图像视觉特征的权重向量和问题词特征的权重向量；
[0039]分别根据所述图像视觉特征的权重向量和问题词特征的权重向量对所述图像视觉特征和问题词特征进行加权求和，得到图像视觉内容的全局特征向量和问题文本内容的全局特征向量；
[0040]将所述图像视觉内容的全局特征向量和问题文本内容的全局特征向量进行特征融合，得到目标融合特征；
[0041]根据答案分类器和候选答案集确定各个候选答案的预测概率；
[0042]通过二元交叉熵损失函数和所述各个候选答案的预测概率确定与问题相对应的正确答案。
[0043]此外，为实现上述目的，本专利技术还提出一种视觉问答装置，所述视觉问答装置包括：
[0044]生成模块，用于通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵；
[0045]确定模块，用于通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征；
[0046]获取模块，用于通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据；
[0047]预测模块，用于根据所述问题词与图像区域的密集交互数据预测与问题相对应的正确答案。
[0048]此外，为实现上述目的，本专利技术还提出一种视觉问答设备，所述视觉问答设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视觉问答程序，所述视觉问答程序配置为实现如上文所述的视觉问答方法。
[0049]此外，为实现上述目的，本专利技术还提出一种存储介质，所述存储介质上存储有视觉问答程序，所述视觉问答程序被处理器执行时实现如上文所述的视觉问答方法。
[0050]本专利技术提出的视觉问答方法，通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵；通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征；通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据；根据所述问题词与图像区域的密集交互数据预测与本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法，其特征在于，所述视觉问答方法包括以下步骤：通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵；通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定目标图像节点特征；通过协同注意力网络根据所述目标图像节点特征和问题词特征序列确定问题词与图像区域的密集交互数据；根据所述问题词与图像区域的密集交互数据预测与问题相对应的正确答案。2.如权利要求1所述的视觉问答方法，其特征在于，所述通过图学习器根据图像视觉内容和问题文本内容生成目标邻接矩阵，包括：获取图像视觉内容和问题文本内容；通过ResNet
‑
101的Faster R
‑
CNN检测器对所述图像视觉内容进行特征提取，得到若干数量的图像视觉区域特征；对所述问题文本内容进行裁剪，得到若干数量的单词；在所述单词的数量等于预设数量阈值时，通过预设Glove模型对所述若干数量的单词进行词嵌入，得到目标维的词向量；通过目标门控循环神经网络根据所述目标维词向量生成相对应的词特征序列；通过卷积神经网络根据所述词特征序列得到目标维度的问题特征向量；通过图学习器根据所述若干数量的图像视觉区域特征和所述目标维度的问题特征向量生成目标邻接矩阵。3.如权利要求2所述的视觉问答方法，其特征在于，所述通过图学习器根据所述若干数量的图像视觉区域特征和所述目标维度的问题特征向量生成目标邻接矩阵，包括：根据所述若干数量的图像视觉区域特征得到视觉对象特征和视觉几何特征；将所述视觉对象特征和视觉几何特征进行串联，得到图像特征向量；通过多层感知机将所述图像特征向量非线性投影至所述目标维度的子空间中；在所述子空间对所述图像特征向量和所述目标维度的问题特征向量进行特征融合；根据融合后的特征向量得到视觉区域成对组合；通过二元关系推理策略和所述视觉区域成对组合生成目标邻接矩阵。4.如权利要求3所述的视觉问答方法，其特征在于，所述通过二元关系推理策略和所述视觉区域成对组合生成目标邻接矩阵，包括：根据所述视觉区域成对组合得到相对应的返回值；通过二元关系推理策略对所述视觉区域成对组合进行推理；对推理后的视觉区域成对组合的第一个维度进行压缩，得到二维数组；将所述二维数组进行转置相加，根据相加后的二维数组和softmax函数生成目标邻接矩阵。5.如权利要求1所述的视觉问答方法，其特征在于，所述通过空间图卷积网络根据所述目标邻接矩阵的节点特征确定...

【专利技术属性】
技术研发人员：谭莹莹，刘传，周雅丽，李运寒，徐仝友，
申请(专利权)人：安徽建筑大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人