视觉对话方法技术

技术编号:39576946 阅读:8 留言:0更新日期:2023-12-03 19:28
本申请实施例涉及一种视觉对话方法

【技术实现步骤摘要】
视觉对话方法、装置、电子设备和计算机可读存储介质


[0001]本申请涉及人工智能
,具体涉及一种视觉对话方法

装置

电子设备和计算机可读存储介质


技术介绍

[0002]近年来,计算机视觉与自然语言的跨模态任务获得了越来越多的关注,尤其是结合计算机视觉和自然语言处理的视觉对话系统被广泛应用,且在很多应用场景中都有着重大价值,例如,视觉对话可以部署到一些不适宜人类出入的场景下,比如火灾

地震现场等

因此,如何更加准确

高效地实现视觉对话,成为当下的研究热点


技术实现思路

[0003]本申请实施例公开了一种视觉对话方法

装置

电子设备和计算机可读存储介质,能够提升视觉对话的回答精度,提高视觉对话的准确性及效率

[0004]第一方面,本申请实施例公开了一种视觉对话方法,包括:
[0005]获取文本数据及图像;所述文本数据包括当前问题

所述当前问题对应的候选答案

历史对话

所述图像的文本描述;
[0006]通过视觉对话模型分别提取所述当前问题对应的问题特征

所述图像对应的图像特征

所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,根据所述问题特征

所述图像特征及所述历史对话特征生成多模态融合特征,并基于图注意力网络根据所述多模态融合特征及所述文本描述生成目标特征向量,根据所述目标特征向量及所述候选答案特征确定所述当前问题对应的目标答案

[0007]作为一种可选的实施方式,在本申请实施例的第一方面中,所述视觉对话模型包括词嵌入模型

双向长短期记忆网络
Bi

LSTM
及目标检测模型;所述分别提取所述当前问题对应的问题特征

所述图像对应的图像特征

所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,包括:
[0008]通过所述词嵌入模型生成所述当前问题对应的词向量

所述当前问题对应的候选答案词向量及所述历史对话词向量;
[0009]通过所述
Bi

LSTM
分别对所述词向量

所述候选答案词向量及所述历史对话词向量进行编码,得到问题特征

候选答案特征及历史对话特征;
[0010]通过所述目标检测模型对所述图像进行目标检测,得到图像特征

[0011]作为一种可选的实施方式,在本申请实施例的第一方面中,所述视觉对话模型包括编码模块;所述根据所述问题特征

所述图像特征及所述历史对话特征生成多模态融合特征,包括:
[0012]通过所述编码模块对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征;
[0013]通过所述编码模块对所述问题特征及所述图像特征进行注意力计算,得到视觉关
联问题特征;
[0014]通过所述编码模块对所述问题关联历史对话特征及所述视觉关联问题特征进行注意力计算,得到多模态融合特征

[0015]作为一种可选的实施方式,在本申请实施例的第一方面中,所述对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征,包括:
[0016]分别对所述问题特征及所述历史对话特征进行非线性变换,得到第一变换结果及第二变换结果;
[0017]对所述第一变换结果及第二变换结果进行哈达玛积计算,得到第一计算结果,并使用全连接线性层对所述第一计算结果进行第一归一化处理,得到第一向量;
[0018]根据所述第一向量及所述历史对话特征,生成第二向量;
[0019]通过所述全连接线性层对所述第二向量及所述问题特征进行第二归一化处理,得到第三向量;
[0020]根据所述第三向量

所述第二向量及所述问题特征进行哈达玛积计算,得到问题关联历史对话特征

[0021]作为一种可选的实施方式,在本申请实施例的第一方面中,所述对所述问题特征及所述图像特征进行注意力计算,得到视觉关联问题特征,包括:
[0022]通过卷积层和全连接层对所述问题特征及所述图像特征进行转换,以得到映射到同一空间的问题特征向量及图像特征向量;
[0023]分别对所述问题特征向量及所述图像特征向量进行非线性变换,得到第三变换结果及第四变换结果;
[0024]将所述第三变换结果的转置与所述第四变换结果相乘,得到第一乘积,并对所述第一乘积进行第一归一化处理,得到第一权重向量;
[0025]通过多层感知机
MLP
根据所述问题特征向量

所述图像特征向量及所述第一权重向量,生成视觉关联问题特征

[0026]作为一种可选的实施方式,在本申请实施例的第一方面中,所述基于图注意力网络根据所述多模态融合特征及所述文本描述生成目标特征向量,包括:
[0027]利用知识库对所述文本描述进行符号匹配,并根据匹配结果构建知识图谱;
[0028]基于图注意力网络,根据所述知识图谱中包含的各个节点的节点特征,以及所述各个节点的相邻节点的节点特征,对所述各个节点进行更新,以得到知识感知特征向量;
[0029]将所述多模态融合特征和所述知识感知特征向量进行融合,得到所述问题的目标特征向量

[0030]作为一种可选的实施方式,在本申请实施例的第一方面中,所述基于图注意力网络,根据所述知识图谱中包含的各个节点的节点特征,以及所述各个节点的相邻节点的节点特征,对所述各个节点进行更新,以得到知识感知特征向量,包括:
[0031]确定目标节点对应的节点集合,所述节点集合包括所述目标节点及所述目标节点的相邻节点;所述目标节点为所述知识图谱中的任一节点;
[0032]对所述目标节点的各个相邻节点在上一层网络的节点特征及所述目标节点在所述上一层网络的节点特征进行映射,得到所述目标节点的各个相邻节点对应的第一映射向量及所述目标节点对应的第二映射向量;
[0033]分别将各个所述第一映射向量与所述第二映射向量进行拼接,并将拼接后的向量映射到实数上,以得到所述目标节点的各个相邻节点对应的注意力计算参数;
[0034]对所述目标节点的各个相邻节点对应的注意力计算参数进行第一归一化处理,得到所述目标节点的各个相邻节点对应的注意力权重;
[0035]根据所述目标节点的各个相邻节点对应的注意力权重及所述目标节点的各个相邻节点在所述上一层网络的节点特征,确定所述目标节点在当前层网络的节点特征,并将下一层网络作为新的当前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种视觉对话方法,其特征在于,所述方法包括:获取文本数据及图像;所述文本数据包括当前问题

所述当前问题对应的候选答案

历史对话

所述图像的文本描述;通过视觉对话模型分别提取所述当前问题对应的问题特征

所述图像对应的图像特征

所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,根据所述问题特征

所述图像特征及所述历史对话特征生成多模态融合特征,并基于图注意力网络根据所述多模态融合特征及所述文本描述生成目标特征向量,根据所述目标特征向量及所述候选答案特征确定所述当前问题对应的目标答案
。2.
根据权利要求1所述的方法,其特征在于,所述视觉对话模型包括词嵌入模型

双向长短期记忆网络
Bi

LSTM
及目标检测模型;所述分别提取所述当前问题对应的问题特征

所述图像对应的图像特征

所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,包括:通过所述词嵌入模型生成所述当前问题对应的词向量

所述当前问题对应的候选答案词向量及所述历史对话词向量;通过所述
Bi

LSTM
分别对所述词向量

所述候选答案词向量及所述历史对话词向量进行编码,得到问题特征

候选答案特征及历史对话特征;通过所述目标检测模型对所述图像进行目标检测,得到图像特征
。3.
根据权利要求1所述的方法,其特征在于,所述视觉对话模型包括编码模块;所述根据所述问题特征

所述图像特征及所述历史对话特征生成多模态融合特征,包括:通过所述编码模块对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征;通过所述编码模块对所述问题特征及所述图像特征进行注意力计算,得到视觉关联问题特征;通过所述编码模块对所述问题关联历史对话特征及所述视觉关联问题特征进行注意力计算,得到多模态融合特征
。4.
根据权利要求3所述的方法,其特征在于,所述对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征,包括:分别对所述问题特征及所述历史对话特征进行非线性变换,得到第一变换结果及第二变换结果;对所述第一变换结果及第二变换结果进行哈达玛积计算,得到第一计算结果,并使用全连接线性层对所述第一计算结果进行第一归一化处理,得到第一向量;根据所述第一向量及所述历史对话特征,生成第二向量;通过所述全连接线性层对所述第二向量及所述问题特征进行第二归一化处理,得到第三向量;根据所述第三向量

所述第二向量及所述问题特征进行哈达玛积计算,得到问题关联历史对话特征
。5.
根据权利要求3所述的方法,其特征在于,所述对所述问题特征及所述图像特征进行注意力计算,得到视觉关联问题特征,包括:通过卷积层和全连接层对所述问题特征及所述图像特征进行转换,以得到映射到同一
空间的问题特征向量及图像特征向量;分别对所述问题特征向量及所述图像特征向量进行非线性变换,得到第三变换结果及第四变换结果;将所述第三变换结果的转置与所述第四变换结果相乘,得到第一乘积,并对所述第一乘积进行第一归一化处理,得到第一权重向量;通过多层感知机
MLP
根据所述问题特征向量

所述图像特征向量及所述第一权重向量,生成视觉关联问题特征
。6.

【专利技术属性】
技术研发人员:吕召彪赵文博许程冲杜量
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1