一种视觉对话方法及系统技术方案

技术编号:35829917 阅读:17 留言:0更新日期:2022-12-03 13:58
本发明专利技术公开了一种视觉对话方法及系统,包括:获取原始输入数据,其中,所述原始输入数据包括当前图像数据和新的问题,且所述新的问题与所述当前图像数据相关;分别对所述原始输入数据中的文本型数据和图像数据进行预处理,得到文本特征序列和视觉特征序列;利用VisDial数据集构建文本语料库;根据所述视觉特征序列和所述文本语料库,利用潜在知识检索器,得到文本序列知识;根据所述视觉特征序列,构建稀疏场景图知识;对所述文本特征序列、所述视觉特征序列、所述文本序列知识和所述稀疏场景图知识进行数据融合,得到数据融合结果;根据所述数据融合结果,利用解码器,得到所述新的问题的对话内容。题的对话内容。题的对话内容。

【技术实现步骤摘要】
一种视觉对话方法及系统


[0001]本专利技术涉及视觉对话
,具体涉及一种视觉对话方法及系统。

技术介绍

[0002]由于深度神经网络的迅速发展,融合视觉语言的任务也获得了越来越多的关注,比如图像/视频字幕生成和视觉问答。视觉对话是视觉问答的扩展,它们之间最显著的区别是视觉问答只包括单轮问答,缺乏一致连续的交互。而视觉对话任务则主要研究多轮连续的问答。它旨在根据输入的图像、问题和之前的对话历史来作出准确的回答。视觉对话可以被应用于很多的领域中,比如AI助盲、机器人、语音助手等。
[0003]为了准确地回答当前问题,需要对视觉和文本内容进行全面深入的理解。基础的解决方案是利用编码器分别提取图像、问题和历史对话的全局特征,然后将这些特征融合为联合表征来推断出最终答案。但是,此种操作可能会导致信息冗余,并且不能很好地解决视觉指代消解问题。之后,研究者们提出了很多基于注意力机制或图模型的视觉对话方法,以挖掘必要的视觉内容并解决共指问题。然而,这些方法几乎都只关注各种输入的内部交互,对于处理复杂的场景显得无能为力。复杂场景主要指:1)前景物体之间存在大量的复杂交互;2)可能干扰前景和混淆视觉推理的嘈杂背景。虽然之后有基于知识的方法被提出,但是它们都是基于单一的知识,对于推理能力的提升有限。同时,它们在解析长难句时,也效果较差。

技术实现思路

[0004]本专利技术的目的在于提供一种视觉对话方法及系统,以解析长度较长或较为复杂的问题和答案,并处理那些实体间交互复杂的视觉场景,从而实现更准确的对话。<br/>[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]本专利技术提供一种视觉对话方法,所述视觉对话方法包括:
[0007]获取原始输入数据,其中,所述原始输入数据包括当前图像数据和新的问题,且所述新的问题与所述当前图像数据相关;
[0008]分别对所述原始输入数据中的文本型数据和图像数据进行预处理,得到文本特征序列和视觉特征序列;
[0009]利用VisDial数据集构建文本语料库;
[0010]根据所述视觉特征序列和所述文本语料库,利用潜在知识检索器,得到文本序列知识;
[0011]根据所述视觉特征序列,构建稀疏场景图;
[0012]对所述文本特征序列、所述视觉特征序列、所述文本序列知识和所述稀疏场景图进行数据融合,得到数据融合结果;
[0013]根据所述数据融合结果,利用解码器,得到所述新的问题的对话内容。
[0014]可选择地,所述分别对所述原始输入数据中的文本型数据和图像数据进行预处
理,得到文本特征序列和视觉特征序列包括:
[0015]利用词嵌入与双向长短时记忆网络对所述文本型数据进行编码处理,得到文本特征序列;
[0016]利用Faster RCNN对所述图像数据进行编码,得到所述视觉特征序列。
[0017]可选择地,所述潜在知识检索器包括聚合操作单元、Bi

LSTM单元和相似度计算单元,所述聚合操作单元用于获取所述视觉特征序列,所述Bi

LSTM单元用于获取所述文本语料库中的文本数据,所述相似度计算单元用于对所述文本数据和所述视觉数据进行相似度计算,以得到文本序列知识。
[0018]可选择地,所述对所述文本特征序列、所述视觉特征序列、所述文本序列知识和所述稀疏场景图进行数据融合,得到数据融合结果包括:
[0019]根据所述文本特征序列和所述新的问题,利用以问题为引导的第一注意力模块,得到第一注意力结果;
[0020]根据所述文本序列知识,利用以问题为引导的第二注意力模块,得到第二注意力结果;
[0021]对所述第一注意力结果和所述第二注意力结果进行级联操作,得到级联结果;
[0022]根据所述视觉特征序列和所述第二注意力结果,利用以知识为引导的注意力模块,得到第三注意力结果;
[0023]对所述稀疏场景图进行图卷积操作,得到图卷积结果;
[0024]根据所述级联结果、所述第三注意力结果和所述图卷积结构,利用基于注意力的融合模块,得到所述数据融合结果。
[0025]可选择地,所述根据所述文本特征序列和所述新的问题,利用以问题为引导的第一注意力模块,得到第一注意力结果包括:
[0026]利用所述新的问题在句子级对所述文本特征序列进行注意力引导,得到注意力特征;
[0027]利用的带有sigmoid激活函数对所述注意力特征进行过滤,得到潜在知识的句子级顺序表征;
[0028]根据所述新的问题在单词级的问题特征,利用点积注意力和sigmoid激活函数,得到潜在知识的单词级顺序表征;
[0029]根据所述注意力特征和所述潜在知识的单词级顺序表征,得到第一注意力结果。
[0030]可选择地,所述利用所述新的问题在句子级对所述文本特征序列进行注意力引导通过以下方式实现:
[0031][0032]其中,表示注意力特征,表示权重系数,且z
r
表示第r轮对话的句子特征,W1和b1分别表示可学习参数和偏置量,和表示非线性变换层,表示逐元素乘法操作,q
t
表示句子级的问题特征,r表示对话的轮次,
[0033]所述利用的带有sigmoid激活函数对所述注意力特征进行过滤为:
[0034][0035]其中,表示潜在知识的句子级顺序表征,gate
z
表示门控函数,且σ表示sigmoid激活函数,W2表示第二可学习参数,b2表示第二偏置量,q
t
表示句子级的问题特征,表示注意力特征。
[0036]可选择地,所述根据所述新的问题在单词级的问题特征,利用点积注意力和sigmoid激活函数,得到潜在知识的单词级顺序表征包括:
[0037][0038]其中,e
w
潜在知识的单词级顺序表征,u
q
表示单词级的问题特征,表示单词级注意力特征且意力特征且表示注意力权重系数,且其中,中,和表示非线性变换层,T表示矩阵转置操作,表示单词级的文本序列知识特征,表示文本特征序列的词嵌入特征,j表示单词标量,r表示对话轮次。
[0039]本专利技术还提供一种视觉对话系统,所述视觉对话系统包括:
[0040]数据获取模块,所述数据获取模块用于获取原始输入数据;
[0041]词嵌入与双向长短时记忆网络,所述词嵌入与双向长短时记忆网络用于对原始输入数据中的文本型数据进行编码处理,得到文本特征序列;
[0042]Faster RCNN模块,所述Faster RCNN用于对原始输入数据中的图像数据进行编码,得到视觉特征序列;
[0043]语料库构建模块,所述语料库构建模块用于根据所述VisDial数据集构建文本语料库;
[0044]潜在知识检索器,所述潜在知识检索器用于根据所述视觉特征序列和所述文本语料库,得到文本序列知识;
[0045]场景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉对话方法,其特征在于,所述视觉对话方法包括:获取原始输入数据,其中,所述原始输入数据包括当前图像数据和新的问题,且所述新的问题与所述当前图像数据相关;分别对所述原始输入数据中的文本型数据和图像数据进行预处理,得到文本特征序列和视觉特征序列;利用VisDial数据集构建文本语料库;根据所述视觉特征序列和所述文本语料库,利用潜在知识检索器,得到文本序列知识;根据所述视觉特征序列,构建稀疏场景图;对所述文本特征序列、所述视觉特征序列、所述文本序列知识和所述稀疏场景图进行数据融合,得到数据融合结果;根据所述数据融合结果,利用解码器,得到所述新的问题的对话内容。2.根据权利要求1所述的视觉对话方法,其特征在于,所述分别对所述原始输入数据中的文本型数据和图像数据进行预处理,得到文本特征序列和视觉特征序列包括:利用词嵌入与双向长短时记忆网络对所述文本型数据进行编码处理,得到文本特征序列;利用Faster RCNN对所述图像数据进行编码,得到所述视觉特征序列。3.根据权利要求1所述的视觉对话方法,其特征在于,所述潜在知识检索器包括聚合操作单元、Bi

LSTM单元和相似度计算单元,所述聚合操作单元用于获取所述视觉特征序列,所述Bi

LSTM单元用于获取所述文本语料库中的文本数据特征,所述相似度计算单元用于对所述文本数据和所述视觉数据进行相似度计算,以得到文本序列知识。4.根据权利要求1至3任一项所述的视觉对话方法,其特征在于,所述对所述文本特征序列、所述视觉特征序列、所述文本序列知识和所述稀疏场景图进行数据融合,得到数据融合结果包括:根据所述文本特征序列和所述新的问题,利用以问题为引导的第一注意力模块,得到第一注意力结果;根据所述文本序列知识,利用以问题为引导的第二注意力模块,得到第二注意力结果;对所述第一注意力结果和所述第二注意力结果进行级联操作,得到级联结果;根据所述视觉特征序列和所述第二注意力结果,利用以知识为引导的注意力模块,得到第三注意力结果;对所述稀疏场景图进行图卷积操作,得到图卷积结果;根据所述级联结果、所述第三注意力结果和所述图卷积结构,利用基于注意力的融合模块,得到所述数据融合结果。5.根据权利要求4所述的视觉对话方法,其特征在于,所述根据所述文本特征序列和所述新的问题,利用以问题为引导的第一注意力模块,得到第一注意力结果包括:利用所述新的问题在句子级对所述文本特征序列进行注意力引导,得到注意力特征;利用的带有sigmoid激活函数对所述注意力特征进行过滤,得到潜在知识的句子级顺序表征;根据所述新的问题在单词级的问题特征,利用点积注意力和sigmoid激活函数,得到潜在知识的单词级顺序表征;
根据所述注意力特征和所述潜在知识的单词级顺序表征,得到第一注意力结果。6.根据权利要求5所述的视觉对话方法,其特征在于,所述利用所述新的问题在句子级对所述文本特征序列进行注意力引导通过以下方式实现:其中,表示注意力特征,表示权重系数,且z
r
表示第r轮对话的句子特征,W1表示第一可学习参数,b1表示第一偏置量,和表示非线性变换层,表示逐元素乘法操作,q
t
...

【专利技术属性】
技术研发人员:赵磊张明星陈飞宇邵杰宋井宽
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1