【技术实现步骤摘要】
基于类人视觉感知和语言记忆网络的视觉对话生成方法
[0001]本专利技术属于计算机视觉
,具体地说是一种基于类人视觉感知和语言记忆网络的视觉对话生成方案。
技术介绍
[0002]视觉对话旨在探索一个智能体使它能够像人类一样恰当的回应一系列问题用自然语言依赖对话历史和所给图像的理解。大多数视觉语言任务更加关注实体级或者区域级的视觉特征。相比而言,视觉对话更具挑战性因为它需要智能体足够充分的理解图像而不仅限于实体级和区域级,以此来应对对话内容的多样性和复杂性。因此,它需要智能体能够多视角的全面理解图像和理解深层次对话历史中的语义交互细节。如何像人类一样能够从多个视角理解图像并且掌握复杂语言内容的细节信息成为了一个最重要的挑战在视觉对话中。视觉对话目前在计算机视觉领域是一个热门的研究课题之一,其应用场景非常广泛,包括:人工智能聊天机器人,以及帮助视障人员快速掌握所处的场景信息;
[0003]随着近几年深度学习的发展,视觉对话技术也得到了巨大的发展,但是仍然存在以下挑战和问题:
[0004]一、现有的方法对于图像信息的处理较少,图像理解不够充分。
[0005]例如,Jiang 2020在视觉对话任务中引入了外部知识即图像的场景图用来刻画object
‑
relation视觉特征,从视觉和语义两个视觉共同描绘图像。Chen 2021认为在图像中能够准确地定位问题相关视觉object是重要,因此他提出去理解视觉对象在视觉对话历史中通过最小化视觉对象的先验分布和后验分布之间的距离。Ch ...
【技术保护点】
【技术特征摘要】
1.一种基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:包括以下步骤,步骤1、视觉对话中文本输入的预处理和单词表的构建;步骤2、视觉对话的图像特征表示以及对话文本的特征表示;步骤3、构建视觉上下文感知图;步骤4、迭代更新视觉上下文感知图获取类人的全局和局部视觉特征向量;步骤5、获取在当前问题指导下的历史对话上下文语言记忆特征向量;步骤6、多模态语义融合处理;步骤7、解码预测答案特征序列;步骤8、基于类人视觉感知和语言记忆网络的视觉对话生成网络模型的参数优化;步骤9、预测候选答案,包括对损失函数随着模型训练学习最小化损失,当损失最小时,取对应损失最小时的答案序列作为模型所预测的候选答案序列。2.根据权利要求1所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤1的实现方式包括以下子步骤,步骤1.1、获取视觉对话数据集,所述视觉对话数据集包含了句子文本和图像;对视觉对话数据集中所有包含的句子文本进行分词处理,得到经分割后的句子序列;步骤1.2、从分割后的句子序列中得到所有单词,并从中筛选词频率大于设定阈值的所有单词,并构建数据集中所有单词对应的单词索引表记为Voc;再对索引表Voc中的每一个单词进行one
‑
hot编码,得到one
‑
hot向量表;步骤1.3、随机初始化一个词嵌入矩阵W
e
,通过使用词嵌入矩阵W
e
将每个单词的one
‑
hot向量映射到相应的词向量上,从而得到每个单词的向量表示。3.根据权利要求2所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤2的实现方式包括以下子步骤,步骤2.1、从视觉对话数据集中获取任意一张图像I,使用目标检测特征提取器得到图像I的视觉特征;步骤2.2、从视觉对话数据集中获取任意一张图像所对应的对话历史文本记为U,当前问题Q以及真实的答案标签记为A
gt
;步骤2.3、使用双向长短时记忆网络对步骤2.2中的对话历史文本U中的第r轮对话u
r
进行语义编码得到隐藏层状态序列表示为采用最后一个隐藏状态特征向量h
r,L
作为第r轮对话u
r
的句子级特征表示h
r
,得到总的对话历史U所对应的句子级特征h
u
;步骤2.4、使用双向长短时记忆网络对步骤2.2中的当前问题Q进行语义编码提取当前问题的上下文特征向量记为,取Bi
‑
LSTM的最后一个隐藏层状态特征h
Q,L
作为当前问题的句子级特征向量h
q
。4.根据权利要求3所述基于类人视觉感知和语言记忆网络的视觉对话生成方法,其特征在于:步骤3的实现方式为,利用步骤2.1中图像I的视觉特征V...
【专利技术属性】
技术研发人员:郭迟,左文炜,孙凯丽,
申请(专利权)人:中山赛伯坦智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。