基于知识图谱的视觉问答处理方法、设备及存储介质技术

技术编号:35760987 阅读:17 留言:0更新日期:2022-11-26 19:11
本申请公开了一种基于知识图谱的视觉问答处理方法、设备及存储介质,属于视觉问答技术领域,本申请提供的一种基于知识图谱的视觉问答处理方法,通过知识图谱构建对象物之间的关系,通过预训练的预训练的TransH模型获取对于的知识图谱特征,将视觉特征、文本问题特征和知识图谱特征融合,基于融合特征获取概率最高的候选答案,实现高效准确的视觉问答处理。实现高效准确的视觉问答处理。实现高效准确的视觉问答处理。

【技术实现步骤摘要】
基于知识图谱的视觉问答处理方法、设备及存储介质


[0001]本专利技术属于视觉问答
,具体来说是一种基于知识图谱的视觉问答处理方法、设备及存储介质。

技术介绍

[0002]文旅客服领域存在大量提问频次高、流程固定繁琐、重复性高的问题,人工客服服务过程不仅会感到枯燥而且学习和回复的时间成本高,使用智能问答代替人工客服完成一部分重复工作,可以帮助企业在节省人力成本的同时提高服务效率。然而对于图片和文本结合的视觉问答形式智能客服目前难以有效的进行回复,依旧依赖于人工客服的处理。
[0003]基于图片和文本结合的视觉问答难以实现智能客服的原因,很大一部分来自于人工智能无法有效的识别文本与图像中对象物的关系。

技术实现思路

[0004]为解决或部分解决上述技术问题,本专利技术提供一种于知识图谱的视觉问答处理方法、设备及存储介质,本专利技术方案在视觉特征和文本问题特征获取后,通过知识图谱构建对象物之间的关系,通过预训练的预训练的TransH模型获取对于的知识图谱特征,将视觉特征、文本问题特征和知识图谱特征融合,基于融合特征获取概率最高的候选答案,实现视觉问答,具体技术方案如下:一种基于知识图谱的视觉问答处理方法,包括如下步骤:获取待处理图像和待处理文本;将待处理图像输入Faster R

CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量;将第一文本特征进行注意力机制处理得到第二文本特征向量;根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。
[0005]作为优选,所述处理图像对应的关联知识图谱的构建步骤包括:获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象为周边节点,以节点和边的的方式生成若干关联子图,以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。
[0006]作为优选,所述第一文本特征向量满足如下公式:FQ=GRU(WQ);式中,WQ={W1,W2,......,Wq};Wi为序列为i的单词对应的词向量。
[0007]作为优选,所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式:FR=MFB(FQA,FIA,FGA);其中,FR为图像问答特征,FQA为第二文本特征向量,FIA为第二图像特征向量,FGA为第一知识图谱特征,采用MFB进行多模态融合。
[0008]第二方面,提供一种计算机设备,包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述第一方面所述的方法。
[0009]第三方面,提供一种存储有计算机程序的存储介质,该程序被处理器执行时实现如上述第一方面所述的方法。
[0010]本专利技术的好处在于:1. 通过将基于注意力机制的视觉特征、文本特征和知识图谱特征进行融合,有效提升图像与问题关联识别的准确性,从而提升视觉问答的准确率;2. 通过Faster R

CNN网络进行图像特性提取,能够获取后续知识图谱构建所需的对象物属性、位置关系等重要信息,提升整体识别效率。
附图说明
[0011]图1为本专利技术一实施例提供的一种方法流程示意图。
[0012]图2为本专利技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0013]以下结合具体实施例和说明书附图对本专利技术做出进一步清楚详细的描述说明。本领域普通技术人员在基于这些说明的情况下将能够实现本专利技术。此外,下述说明中涉及到的本专利技术的实施例通常仅是本专利技术一部分的实施例,而不是全部的实施例。因此,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0014]实施例:本实施例提供了一种基于知识图谱的视觉问答处理方法,如图1所示,包括如下步骤:获取待处理图像和待处理文本;
将待处理图像输入Faster R

CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量,将第一文本特征进行注意力机制处理得到第二文本特征向量;根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。
[0015]具体的,所述处理图像对应的关联知识图谱的构建步骤包括:获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象为周边节点,以节点和边的方式生成若干关联子图,以边缘节点关联权重将生成的若干关联子图合并为关联知识图谱。
[0016]进一步的,所述第一文本特征向量满足如下公式:FQ=GRU(WQ);式中,WQ={W1,W2,......,Wq};Wi为序列为i的单词对应的词向量。
[0017]进一步的,所述将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征满足如下公式:FR=MFB(FQA,FIA,FGA);其中,FR为图像问答特征,FQA为第二文本特征向量,FIA为第二图像特征向量,FGA为第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的视觉问答处理方法,其特征在于,包括如下步骤:获取待处理图像和待处理文本;将待处理图像输入Faster R

CNN网络进行特性提取,获取所述待处理图像的第一图像特征集合,所述第一图像特征集合为所述待处理图像所有图像特征的集合,将第一图像特征中的图像特征对应嵌入待处理图像中,输出第一图像特征向量;其中,所述图像特征包括待处理图像中对象物相应的类别标签、对象物空间位置关系和对象属性;将待处理文本序列化并通过GloVe词嵌入模型进行特征向量提取得到文本向量集合;所述文本向量集合为待处理文本每个单词对应的词向量组成的集合;基于GRU处理所述文本向量集合中每个单词对应的词向量的嵌入序列以得到第一文本特征向量;将第一图像特征向量基于图像空间注意力机制进行处理,得到第二图像特征向量,将第一文本特征进行注意力机制处理得到第二文本特征向量;根据第一图像特征集合及第一文本特征构建待处理图像对应的关联知识图谱,将处理图像对应的关联知识图谱输入预训练的TransH知识表示模型得到第一知识图谱特征;将第二图像特征向量、第二文本特征向量机第一知识图谱特征进行特征融合得到图像问答特征,将图像问答特征输入预训练的答案分类器获取概率最高的类别作为输出候选答案。2.根据权利要求1所述的一种基于知识图谱的视觉问答处理方法,其特征在于,所述处理图像对应的关联知识图谱的构建步骤包括:获取第一图像特征集合中对象物的类别标签和对象属性,根据对象属性和类别标签并基于第一文本特征向量获取主体对象和背景对象,以主体对象为中心节点、背景对象...

【专利技术属性】
技术研发人员:吴倩文陈海江张良友
申请(专利权)人:浙江力石科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1