基于类人视觉感知和语言记忆网络的视觉对话生成方法技术

技术编号:38041934 阅读:9 留言:0更新日期:2023-06-30 11:08
本发明专利技术提供一种基于类人视觉感知和语言记忆网络的视觉对话生成方法,包括视觉对话中文本输入的预处理和单词表的构建;视觉对话的图像特征表示以及对话文本的特征表示;构建视觉上下文感知图;迭代更新视觉上下文感知图获取类人的全局和局部视觉特征向量;获取在当前问题指导下的历史对话上下文语言记忆特征向量;多模态语义融合处理;解码预测答案特征序列;基于类人视觉感知和语言记忆网络的视觉对话生成网络模型的参数优化;预测候选答案。本发明专利技术在视觉对话上构建了视觉上下文感知图利用图卷积神经网络获取全局和局部的视觉特征表示以充分理解图像内容;基于历史对话上下文语言记忆的学习捕获更细粒度的文本信息来推理对话隐含的深层语义信息。理对话隐含的深层语义信息。理对话隐含的深层语义信息。

【技术实现步骤摘要】
基于类人视觉感知和语言记忆网络的视觉对话生成方法


[0001]本专利技术属于计算机视觉
,具体地说是一种基于类人视觉感知和语言记忆网络的视觉对话生成方案。

技术介绍

[0002]视觉对话旨在探索一个智能体使它能够像人类一样恰当的回应一系列问题用自然语言依赖对话历史和所给图像的理解。大多数视觉语言任务更加关注实体级或者区域级的视觉特征。相比而言,视觉对话更具挑战性因为它需要智能体足够充分的理解图像而不仅限于实体级和区域级,以此来应对对话内容的多样性和复杂性。因此,它需要智能体能够多视角的全面理解图像和理解深层次对话历史中的语义交互细节。如何像人类一样能够从多个视角理解图像并且掌握复杂语言内容的细节信息成为了一个最重要的挑战在视觉对话中。视觉对话目前在计算机视觉领域是一个热门的研究课题之一,其应用场景非常广泛,包括:人工智能聊天机器人,以及帮助视障人员快速掌握所处的场景信息;
[0003]随着近几年深度学习的发展,视觉对话技术也得到了巨大的发展,但是仍然存在以下挑战和问题:
[0004]一、现有的方法对于图像信息的处理较少,图像理解不够充分。
[0005]例如,Jiang 2020在视觉对话任务中引入了外部知识即图像的场景图用来刻画object

relation视觉特征,从视觉和语义两个视觉共同描绘图像。Chen 2021认为在图像中能够准确地定位问题相关视觉object是重要,因此他提出去理解视觉对象在视觉对话历史中通过最小化视觉对象的先验分布和后验分布之间的距离。Chen 2021提出一个关系意识的图卷积网络来抽取图像中实体间的空间关系为了提升智能体对图像的理解。尽管上述方法已经逐渐的加强对视觉上下文特征的探索,但是它们主要来自于object

local特征,仍然忽略了能够体现整张图像的视觉环境的全局视觉上下文信息。
[0006]二、缺乏细粒度的文本上下文语义特征的学习。
[0007]例如,Gan 2019引入一个迭代推理的理念并提出了一个Recurrent Dual Attention Network,在每轮对话中都更新问题的语义表示这使模型能够细粒度的理解多模态的上下文。Schwartz2019尝试构建了一个基于对话中问答对的图结构然后利用一个通用的注意力机制模型捕获对话内容的细节和细微差别信息从而帮助模型预测答案。Kang 2019提出了两个注意力模块REFER和FIND去解决模糊不清的指代在问题中。虽然上述工作已经关注了文本内容的学习,但仍于粗粒度的学习阶段,忽视了细粒度语言信息的重要性。

技术实现思路

[0008]本专利技术是为了解决目前现有技术上的不足之处所提出的。具体地,本专利技术提出了一种基于类人视觉感知和语言记忆网络的视觉对话生成方案,以期能为智能体提供全面的视觉特征理解信息,以及更加细粒度的文本语言记忆信息,从而提高智能体对于图像和文本的理解以预测视觉对话智能体答案的生成的恰当性和准确性。
[0009]为了实现上述目的,本专利技术采用的技术方案为一种基于类人视觉感知和语言记忆网络的视觉对话生成方法,包括以下步骤,
[0010]步骤1、视觉对话中文本输入的预处理和单词表的构建;
[0011]步骤2、视觉对话的图像特征表示以及对话文本的特征表示;
[0012]步骤3、构建视觉上下文感知图;
[0013]步骤4、迭代更新视觉上下文感知图获取类人的全局和局部视觉特征向量;
[0014]步骤5、获取在当前问题指导下的历史对话上下文语言记忆特征向量;
[0015]步骤6、多模态语义融合处理;
[0016]步骤7、解码预测答案特征序列;
[0017]步骤8、基于类人视觉感知和语言记忆网络的视觉对话生成网络模型的参数优化;
[0018]步骤9、预测候选答案,包括对损失函数随着模型训练学习最小化损失,当损失最小时,取对应损失最小时的答案序列作为模型所预测的候选答案序列。
[0019]而且,步骤1的实现方式包括以下子步骤,步骤1.1、获取视觉对话数据集,所述视觉对话数据集包含了句子文本和图像;对视觉对话数据集中所有包含的句子文本进行分词处理,得到经分割后的句子序列;
[0020]步骤1.2、从分割后的句子序列中得到所有单词,并从中筛选词频率大于设定阈值的所有单词,并构建数据集中所有单词对应的单词索引表记为Voc;再对索引表Voc中的每一个单词进行one

hot编码,得到one

hot向量表;
[0021]步骤1.3、随机初始化一个词嵌入矩阵W
e
,通过使用词嵌入矩阵W
e
将每个单词的one

hot向量映射到相应的词向量上,从而得到每个单词的向量表示。
[0022]而且,步骤2的实现方式包括以下子步骤,
[0023]步骤2.1、从视觉对话数据集中获取任意一张图像I,使用目标检测特征提取器得到图像I的视觉特征;
[0024]步骤2.2、从视觉对话数据集中获取任意一张图像所对应的对话历史文本记为U,当前问题Q以及真实的答案标签记为A
gt

[0025]步骤2.3、使用双向长短时记忆网络对步骤2.2中的对话历史文本U中的第r轮对话u
r
进行语义编码得到隐藏层状态序列表示为采用最后一个隐藏状态特征向量h
r,L
作为第r轮对话u
r
的句子级特征表示h
r
,得到总的对话历史U所对应的句子级特征h
u

[0026]步骤2.4、使用双向长短时记忆网络对步骤2.2中的当前问题Q进行语义编码提取当前问题的上下文特征向量记为,取Bi

LSTM的最后一个隐藏层状态特征h
Q,L
作为当前问题的句子级特征向量h
q

[0027]而且,步骤3的实现方式为,利用步骤2.1中图像I的视觉特征V和当前问题的句子级特征向量h
q
作为构建视觉上下文感知图的输入,在图构建的过程中,将图像I的视觉特征V与h
q
进行注意力对齐,得到含有当前问题信息的图像特征,将构建图节点的特征表示和节点间的边权重表示分别为V
*

[0028]而且,步骤4的实现方式为,将步骤3中建立的视觉上文感知图利用多层图卷积神经网络进行更新获取类人的图像的全局和局部视觉特征向量。
[0029]而且,步骤5的实现方式为,利用步骤2.3中获得的第r轮的对话历史特征向量h
r

当前问题特征向量h
q
来构建上语言记忆特征向量表示;首先,将第0轮到第r轮的对话历史特征向量进行拼接获得总的对话历史特征然后将与h
q
进行特征融合操作,获得话题特征向量表示最后将所有轮的对话历史进行迭代更新学习获得最终的语言记忆特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:包括以下步骤,步骤1、视觉对话中文本输入的预处理和单词表的构建;步骤2、视觉对话的图像特征表示以及对话文本的特征表示;步骤3、构建视觉上下文感知图;步骤4、迭代更新视觉上下文感知图获取类人的全局和局部视觉特征向量;步骤5、获取在当前问题指导下的历史对话上下文语言记忆特征向量;步骤6、多模态语义融合处理;步骤7、解码预测答案特征序列;步骤8、基于类人视觉感知和语言记忆网络的视觉对话生成网络模型的参数优化;步骤9、预测候选答案,包括对损失函数随着模型训练学习最小化损失,当损失最小时,取对应损失最小时的答案序列作为模型所预测的候选答案序列。2.根据权利要求1所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤1的实现方式包括以下子步骤,步骤1.1、获取视觉对话数据集,所述视觉对话数据集包含了句子文本和图像;对视觉对话数据集中所有包含的句子文本进行分词处理,得到经分割后的句子序列;步骤1.2、从分割后的句子序列中得到所有单词,并从中筛选词频率大于设定阈值的所有单词,并构建数据集中所有单词对应的单词索引表记为Voc;再对索引表Voc中的每一个单词进行one

hot编码,得到one

hot向量表;步骤1.3、随机初始化一个词嵌入矩阵W
e
,通过使用词嵌入矩阵W
e
将每个单词的one

hot向量映射到相应的词向量上,从而得到每个单词的向量表示。3.根据权利要求2所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤2的实现方式包括以下子步骤,步骤2.1、从视觉对话数据集中获取任意一张图像I,使用目标检测特征提取器得到图像I的视觉特征;步骤2.2、从视觉对话数据集中获取任意一张图像所对应的对话历史文本记为U,当前问题Q以及真实的答案标签记为A
gt
;步骤2.3、使用双向长短时记忆网络对步骤2.2中的对话历史文本U中的第r轮对话u
r
进行语义编码得到隐藏层状态序列表示为采用最后一个隐藏状态特征向量h
r,L
作为第r轮对话u
r
的句子级特征表示h
r
,得到总的对话历史U所对应的句子级特征h
u
;步骤2.4、使用双向长短时记忆网络对步骤2.2中的当前问题Q进行语义编码提取当前问题的上下文特征向量记为,取Bi

LSTM的最后一个隐藏层状态特征h
Q,L
作为当前问题的句子级特征向量h
q
。4.根据权利要求3所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤3的实现方式为,利用步骤2.1中图像I的视觉特征V...

【专利技术属性】
技术研发人员:郭迟左文炜孙凯丽
申请(专利权)人:中山赛伯坦智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1