一种基于匹配算法的视觉问答方法及系统技术方案

技术编号：26762712 阅读：33 留言：0更新日期：2020-12-18 23:15

本发明专利技术公开了一种基于匹配算法的视觉问答方法，包括：通过图像检测和识别的方法获得图像信息；根据所述图像信息生成结构化的场景图；通过自然语言处理的方法获得问句信息；利用所述问句信息生成结构化的文本图；将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。本发明专利技术的视觉问答方法可以为多模态信息交互和视觉问答领域提供一种基于结构化数据匹配的技术补充，从而使视觉问答技术具有更广泛的应用范围和更良好的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于匹配算法的视觉问答方法及系统
本专利技术涉及图像信号处理、自然语言处理结合的多模态信息交互
，特别涉及一种基于匹配算法的视觉问答方法及系统。
技术介绍
多模态信息交互技术和视觉问答技术目前处于发展阶段，但应用前景广泛。现有的视觉问答方法，通常采用一个深度神经网络，将图像特征和问句特征融合成特征向量，再经由神经网络进行学习和拟合，然后输出答案。但是，基于端到端神经网络的视觉问答需要大量视觉问答数据训练模型，灵活度低且可能存在学习偏置，对于训练数据中出现频次较低的答案相对不容易学习到，也不具备良好的推理能力，对于结构复杂的问题难以解析。此外，基于图结构的方法，通常将问句信息编码，来引导图像信息生成图结构，并利用图神经网络的方法在该图上计算答案。这样的方法通常需要将文本信息和图像信息用嵌入向量的形式抽象表示，对于系统回答错误的情况难以回溯分析，因此难以有针对性地优化系统性能。另外，由文本信息和视觉信息两个不同模态的信息耦合生成的图，可能会不利于信息表达，从而影响系统性能。现有的采用图匹配的视觉...

【技术保护点】
1.一种基于匹配算法的视觉问答方法，其特征在于，包括：/n通过图像检测和识别的方法获得图像信息；/n根据所述图像信息生成结构化的场景图；/n通过自然语言处理的方法获得问句信息；/n利用所述问句信息生成结构化的文本图；/n将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。/n

【技术特征摘要】
1.一种基于匹配算法的视觉问答方法，其特征在于，包括：
通过图像检测和识别的方法获得图像信息；
根据所述图像信息生成结构化的场景图；
通过自然语言处理的方法获得问句信息；
利用所述问句信息生成结构化的文本图；
将所述场景图和文本图利用匹配算法进行匹配得到问句的答案。

2.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述图像检测和识别的方法包括：物体检测、关系检测、属性检测、场景检测；
所述自然语言处理的方法包括：实体抽取、关系抽取、依存关系解析，以得到问句中的实体、关系、语法结构，以及问句的查询焦点。

3.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，生成结构化的场景图后还包括引入外部知识优化场景图，包括信息添加、删减或修改。

4.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述根据所述图像信息生成结构化的场景图时包括采用显式的自然语言表示来构成场景图，或采用隐式的编码向量来构成场景图；
生成结构化的文本图时包括：将获得的信息采用显式的自然语言表示来构成文本图，或采用隐式的编码向量来构成文本图。

5.根据权利要求1所述的一种基于匹配算法的视觉问答方法，其特征在于，所述匹配算法包括但不限于精确匹配算法和模糊匹配算法。

6.根据权利要求1至5中任一所述的一种基于匹配算法的视觉问答方法，其特征在于，所述通过图像检测和识别的方法获得图像信息具体包括：
S1.对图像进行检测，得到场景中各目标类别及其在图像中的边界坐标的信息；
S2.利用所述目标类别和边界坐标进行属性和关系识别，得到各目标的属性信息，以及各目标之间的相互关系的信息。

7.根据权利要求6所述的一种基于匹配算法的视觉问答方法，其特征在于，所述根据所述图像信息生成结构化的场景图具体包括：
S1.在场景图中，以节点代表某一物体或某一具体属性值，...

【专利技术属性】
技术研发人员：汪欣，展华益，王欣，孙锐，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人