基于图感知的视觉对话答案生成方法及装置制造方法及图纸

技术编号：35099271 阅读：19 留言：0更新日期：2022-10-01 17:04

本发明专利技术公开了一种基于图感知的视觉对话答案生成方法及装置，方法包括：根据各模态性质分别构建查询库，根据查询要素对模态内信息敏感程度不同，利用自注意力机制对特征向量分配权重加和，保留在实际场景中利于推理过程的模态特征；对历史对话进行实体识别和关系检测，以实体作为节点，关系作为有向边构建基础图架构，利用GloVe词向量对实体与关系进行编码；通过迭代更新多次增强图语义，旨在多次将图内信息反馈回对话历史和图像内容中，信息传递过程呈现闭环，用来充分挖掘模态间的交互关系；将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案。装置包括：处理器和存储器。处理器和存储器。处理器和存储器。

全部详细技术资料下载

【技术实现步骤摘要】
基于图感知的视觉对话答案生成方法及装置

[0001]本专利技术涉及视觉对话生成领域，尤其涉及一种基于图感知的视觉对话基于图感知的视觉对话答案生成方法及装置。

技术介绍

[0002]随着人工智能的不断发展，视觉对话在计算机视觉和自然语言处理的交叉领域受到了前所未有的关注。在该任务中，给定一张图片、图片描述以及一组对话(即多轮问答对)，智能体能够根据当前问题充分理解跨模态语义的潜在关联，并且推理出精确答案。与其他视觉语言任务，例如：图像描述生成
[1]、场景图生成
[2]、视觉常识推理
[3]、视觉问答(VQA)
[4]等不同，为了根据实际需求和应用场景进一步探讨视觉与语言之间的深层语义依赖关系，视觉对话不仅要求文本与图像之间存在细粒度的跨模态理解，而且要求当前问题、对话历史与视觉信息之间具有全局语义依赖性。这项技术旨在通过智能体对当前问题进行精准反馈为人类答疑解惑，来代替人类感知与思考。可以广泛应用于人机交互，帮助视障用户感知周边信息等。为了搭建视觉对话生成研究平台，VisDial v0.9与VisDial v1.0数据集被提出
[5]，以便验证模型在实际场景中的应用能力。
[0003]现有方法
[6
‑
11]在视觉对话生成方面展现了创新方法和出色表现，研究者主要将研究中心放在如何利用注意力机制以文本信息引导视觉信息的提取，然后将多模态特征进行嵌入融合，最终送入解码器中解析出答案线索，已有的框架像DAN
[6]、RAA
‑
>Net
[7]均取得良好性能。然而这个推理过程是单向的，导致跨模态交互不足，生成答案的精度以及丰富度受限。而GNN
[8]、FGA
[9]等框架引入图结构可以缓解这一缺点，将文本与视觉抽象出多层级语义用来构建图，通过消息传递的图内循环方式，实现包含多模态信息的图节点间交互，再对图进行嵌入得到图特征用于答案生成。
[0004]然而，上述现有模型过于重视图中高阶信息在推理过程中的作用，忽视原本自然语言和视觉内容的推理能力，使其在推理过程中的作用得到一定程度的削弱。这说明亟需引入动态结构来优化模型，使得图模态与视觉文本之间建立密切的交互关系，通过图外循环强化视觉与文本的推理作用。在以往的文献中，并没有采用图结构作为媒介来丰富对话回合和视觉区域语义的策略。
[0005]综上所述，尽管视觉对话生成领域已经取得一系列进展
[8,9]，但是仍然没有设计出图感知的多模态语义交互框架，忽略了图模态与视觉文本之间密切交互对于推理的作用。目前主流方法仍是对原始信息进行特征提取与融合，这种单向粗粒度操作无法充分发掘文本与视觉之间的语义依赖关系，从而损害针对当前场景的答案生成效果。
[0006]基于此研究现状，目前面临的挑战主要有以下三个方面：
[0007]1、如何从视觉文本多模态信息中抽象出图结构继而对图语义进行迭代增强；
[0008]2、如何将图中高阶信息反馈回对话历史和图像区域中并优化其自注意力加权过程；
[0009]3、如何将图模态特征和文本、视觉等特征进行联合特征嵌入以及对当前问题进行
协同推理。

技术实现思路

[0010]本专利技术提供了一种基于图感知的视觉对话答案生成方法及装置，本专利技术根据视觉与文本模态特点分别建立查询库用来存储查询向量，并由查询向量利用自注意力对模态内局部特征进行感知，从而获取高阶语义向量；在图构建与迭代更新阶段，将对话历史中实体以及关系进行识别以建立基本有向图结构，将有向图进行特征嵌入并与文本和视觉特征进行多阶段交互，从而同时丰富视觉、文本以及图的语义信息；在多模态协同推理阶段，各阶段的图进行节点层级特征融合，再利用多层感知机将其嵌入更高阶语义空间形成高阶图特征，与自注意力模块挑选出的多模态特征进行语义感知与融合，以生成具有强推理能力的向量，用于进行在特定场景下针对当前问题的答案生成，详见下文描述：
[0011]第一方面，一种基于图感知的视觉对话答案生成方法，所述方法包括以下步骤：
[0012]根据各模态性质分别构建查询库，根据查询要素对模态内信息敏感程度不同，利用自注意力机制对特征向量分配权重加和，保留在实际场景中利于推理过程的模态特征；
[0013]对历史对话进行实体识别和关系检测，以实体作为节点，关系作为有向边构建基础图架构，利用GloVe词向量对实体与关系进行编码；
[0014]通过迭代更新多次增强图语义，旨在多次将图内信息反馈回对话历史和图像内容中，信息传递过程呈现闭环，用来充分挖掘模态间的交互关系；
[0015]将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案。
[0016]其中，在步骤1)之前，所述方法还包括：
[0017]利用长短期记忆网络LSTM对视觉描述以及对话历史等文本信息进行编码，根据文本信息初始化基础有向图，利用Faster
‑
RCNN对图片特征进行特征提取。
[0018]进一步地，所述构建基础图架构具体为：
[0019]根据文本信息句法结构及语义，识别文本信息中的实体与关系，初始化有向图，利用视觉描述和问题特征对图中各节点进行全局语义增强，将图节点特征进行整合分别送入历史对话和图片特征中，经查询库中各查询向量挑选之后，再将问题相关的对话特征和图片特征对图节点进行语义增强。
[0020]其中，所述将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案具体为：
[0021]将多阶段的高阶语义图进行节点级别特征融合，再进行嵌入以生成图向量，并将图向量再次反馈回相关对话回合和图片区域进行向量拼接并加权求和，经多层感知机和激活函数后得到答案推理特征。
[0022]其中，所述方法还包括：
[0023]利用全连接层、多层感知机、激活函数及自注意力；联合嵌入文本、视觉以及图特征。
[0024]第二方面、一种基于图感知的视觉对话答案生成装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0025]第三方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
[0026]本专利技术提供的技术方案的有益效果是：
[0027]1、本专利技术根据文本与视觉模态特性分别建立查询库，用来存储能准确感知当前模态关键线索的查询向量，将查询库中的查询向量送入自注意力机制中分别对当前模态局部信息进行敏感性加权并融合，从而尽可能保留在实际场景中利于推理过程的模态特征；
[0028]现有的采用注意力机制的方法
[6,7]，大多仅仅采用当前问题向量作本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图感知的视觉对话答案生成方法，其特征在于，所述方法包括以下步骤：根据各模态性质分别构建查询库，根据查询要素对模态内信息敏感程度不同，利用自注意力机制对特征向量分配权重加和，保留在实际场景中利于推理过程的模态特征；对历史对话进行实体识别和关系检测，以实体作为节点，关系作为有向边构建基础图架构，利用GloVe词向量对实体与关系进行编码；通过迭代更新多次增强图语义，旨在多次将图特征反馈回对话历史和图像内容，信息传递过程呈现闭环，挖掘模态间的交互关系；将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案。2.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述方法还包括：利用长短期记忆网络LSTM对视觉描述以及对话历史等文本信息进行编码，根据文本信息初始化基础有向图，利用Faster
‑
RCNN对图片特征进行特征提取。3.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述构建基础图架构具体为：根据文本信息句法结构及语义，识别文本信息中的实体与关系，初始化有向图，利用视觉描述和问题特征对图中各节点进行全局语义增强，将图节点特征进行整合分别送入...

【专利技术属性】
技术研发人员：刘安安，徐宁，张国楷，郭俊波，靳国庆，张勇东，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人