【技术实现步骤摘要】
视觉对话方法、装置、电子设备和计算机可读存储介质
[0001]本申请涉及人工智能
,具体涉及一种视觉对话方法
、
装置
、
电子设备和计算机可读存储介质
。
技术介绍
[0002]近年来,计算机视觉与自然语言的跨模态任务获得了越来越多的关注,尤其是结合计算机视觉和自然语言处理的视觉对话系统被广泛应用,且在很多应用场景中都有着重大价值,例如,视觉对话可以部署到一些不适宜人类出入的场景下,比如火灾
、
地震现场等
。
因此,如何更加准确
、
高效地实现视觉对话,成为当下的研究热点
。
技术实现思路
[0003]本申请实施例公开了一种视觉对话方法
、
装置
、
电子设备和计算机可读存储介质,能够提升视觉对话的回答精度,提高视觉对话的准确性及效率
。
[0004]第一方面,本申请实施例公开了一种视觉对话方法,包括:
[0005]获取文本数据及图像;所述文本数据包括当前问题
、
所述当前问题对应的候选答案
、
历史对话
、
所述图像的文本描述;
[0006]通过视觉对话模型分别提取所述当前问题对应的问题特征
、
所述图像对应的图像特征
、
所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,根据所述问题特征
、
所述图像特征及所述历史对话特 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种视觉对话方法,其特征在于,所述方法包括:获取文本数据及图像;所述文本数据包括当前问题
、
所述当前问题对应的候选答案
、
历史对话
、
所述图像的文本描述;通过视觉对话模型分别提取所述当前问题对应的问题特征
、
所述图像对应的图像特征
、
所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,根据所述问题特征
、
所述图像特征及所述历史对话特征生成多模态融合特征,并基于图注意力网络根据所述多模态融合特征及所述文本描述生成目标特征向量,根据所述目标特征向量及所述候选答案特征确定所述当前问题对应的目标答案
。2.
根据权利要求1所述的方法,其特征在于,所述视觉对话模型包括词嵌入模型
、
双向长短期记忆网络
Bi
‑
LSTM
及目标检测模型;所述分别提取所述当前问题对应的问题特征
、
所述图像对应的图像特征
、
所述候选答案对应的候选答案特征以及所述历史对话对应的历史对话特征,包括:通过所述词嵌入模型生成所述当前问题对应的词向量
、
所述当前问题对应的候选答案词向量及所述历史对话词向量;通过所述
Bi
‑
LSTM
分别对所述词向量
、
所述候选答案词向量及所述历史对话词向量进行编码,得到问题特征
、
候选答案特征及历史对话特征;通过所述目标检测模型对所述图像进行目标检测,得到图像特征
。3.
根据权利要求1所述的方法,其特征在于,所述视觉对话模型包括编码模块;所述根据所述问题特征
、
所述图像特征及所述历史对话特征生成多模态融合特征,包括:通过所述编码模块对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征;通过所述编码模块对所述问题特征及所述图像特征进行注意力计算,得到视觉关联问题特征;通过所述编码模块对所述问题关联历史对话特征及所述视觉关联问题特征进行注意力计算,得到多模态融合特征
。4.
根据权利要求3所述的方法,其特征在于,所述对所述问题特征及所述历史对话特征进行注意力计算,得到问题关联历史对话特征,包括:分别对所述问题特征及所述历史对话特征进行非线性变换,得到第一变换结果及第二变换结果;对所述第一变换结果及第二变换结果进行哈达玛积计算,得到第一计算结果,并使用全连接线性层对所述第一计算结果进行第一归一化处理,得到第一向量;根据所述第一向量及所述历史对话特征,生成第二向量;通过所述全连接线性层对所述第二向量及所述问题特征进行第二归一化处理,得到第三向量;根据所述第三向量
、
所述第二向量及所述问题特征进行哈达玛积计算,得到问题关联历史对话特征
。5.
根据权利要求3所述的方法,其特征在于,所述对所述问题特征及所述图像特征进行注意力计算,得到视觉关联问题特征,包括:通过卷积层和全连接层对所述问题特征及所述图像特征进行转换,以得到映射到同一
空间的问题特征向量及图像特征向量;分别对所述问题特征向量及所述图像特征向量进行非线性变换,得到第三变换结果及第四变换结果;将所述第三变换结果的转置与所述第四变换结果相乘,得到第一乘积,并对所述第一乘积进行第一归一化处理,得到第一权重向量;通过多层感知机
MLP
根据所述问题特征向量
、
所述图像特征向量及所述第一权重向量,生成视觉关联问题特征
。6.
技术研发人员:吕召彪,赵文博,许程冲,杜量,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。