当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于图神经网络嵌入匹配的知识图谱问答方法和系统技术方案

技术编号:28373907 阅读:27 留言:0更新日期:2021-05-08 00:01
本发明专利技术公开了一种基于图神经网络嵌入匹配的知识图谱问答方法,包括:获取来自用户的问句,使用命名实体识别工具对该问句进行处理,以获得该问句中的实体,并利用句法分析工具对问句进行处理,以获得该问句对应的查询图和主题词;利用实体近义词字典对得到的主题词进行实体链接处理,以得到知识图谱中的主题词,并将知识图谱中的主题词输入知识图谱进行检索,以得到主题图,根据得到的主题图、以及得到的查询图输入训练好的图嵌入匹配模型中,以得到问句的答案。本发明专利技术能解决现有语义解析方法其模板并不能完全适用所有的自然语言问句的技术问题,对于语义相似的模糊查找能力较弱,并会生成众多不必要的查询语句,进而导致查询效率低下的技术问题。

【技术实现步骤摘要】
一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
本专利技术属于人工智能
,更具体地,涉及一种基于图神经网络嵌入匹配的知识图谱问答方法和系统。
技术介绍
融合人类知识是人工智能的研究方向之一。知识表示和推理,受人类解决问题的启发,是为智能系统表示知识,以获得解决复杂任务的能力。近年来,知识图谱作为结构化人类知识的一种形式,引起了学术界和工业界的极大关注。知识图谱是由一些相互连接的实体和其属性构成。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个三元组,实体、关系、实体(Entity-Relation-Entity)。实体可以是现实世界的对象和抽象概念,关系表示实体之间的关系。知识图谱问答(Knowledgebasequestionanswering,简称KBQA)利用图谱丰富的语义关联信息,能够深入理解用户问题并给出答案,近年来吸引了学术界和工业界的广泛关注。然而,随着知识图谱规模的不断扩大,如何快速且准确的进行问答,也成为KBQA的主要挑战。现有的KBQA方法包括语义解析(SemanticParsing)方法以及信息检本文档来自技高网...

【技术保护点】
1.一种基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,包括以下步骤:/n(1)获取来自用户的问句,使用命名实体识别工具对该问句进行处理,以获得该问句中的实体,并利用句法分析工具对问句进行处理,以获得该问句对应的查询图和主题词;/n(2)利用实体近义词字典对步骤(1)得到的主题词进行实体链接处理,以得到知识图谱中的主题词,并将知识图谱中的主题词输入知识图谱进行检索,以得到主题图。/n(3)根据步骤(2)得到的主题图、以及步骤(1)得到的查询图输入训练好的图嵌入匹配模型中,以得到问句的答案。/n

【技术特征摘要】
1.一种基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,包括以下步骤:
(1)获取来自用户的问句,使用命名实体识别工具对该问句进行处理,以获得该问句中的实体,并利用句法分析工具对问句进行处理,以获得该问句对应的查询图和主题词;
(2)利用实体近义词字典对步骤(1)得到的主题词进行实体链接处理,以得到知识图谱中的主题词,并将知识图谱中的主题词输入知识图谱进行检索,以得到主题图。
(3)根据步骤(2)得到的主题图、以及步骤(1)得到的查询图输入训练好的图嵌入匹配模型中,以得到问句的答案。


2.根据权利要求1所述的基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,步骤(1)具体包括以下子步骤:
(1-1)获取来自用户的问句,使用命名实体识别工具获取该问句中的所有实体。
(1-2)使用句法分析工具对步骤(1-1)得到的问句进行处理,以得到问句的句法依存树;
(1-3)使用句法分析工具对问句进行处理,以得到问句中每个词的词性;
(1-4)根据步骤(1-1)得到的实体、以及步骤(1-3)得到的问句中每个词的词性去除问句中的所有分词,并根据步骤(1-2)得到的该问句的句法依存树对去除了所有分词后的问句进行处理,以得到该问句中实体间的关系。
(1-5)根据步骤(1-1)得到的实体、步骤(1-4)得到的该问句中实体间的关系、以及步骤(1-2)得到的句法依存树,获取该问句对应的一个查询图;
(1-6)对步骤(1-5)得到的查询图进行解析,以得到主题词。


3.根据权利要求1或2所述的基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,步骤(2)具体包括以下子步骤:
(2-1)利用实体近义词字典对步骤(1)得到的主题词进行实体链接处理,以得到知识图谱中的主题词。
(2-2)利用步骤(2-1)得到知识图谱中的主题词,在已有的知识图谱中进行检索,以得到主题词周围两跳内的实体,以及实体之间的关系。
(2-3)根据步骤(2-2)得到的主题词周围两跳内的实体、实体之间的关系、以及步骤(2-1)得到的主题词构建子图作为主题图。


4.根据权利要求1至3中任意一项所述的基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,
主题词周围两跳内的实体是指主题词的邻居实体、以及该邻居实体的邻居实体;
图嵌入匹配模型包括依次连接的长短期记忆网络LSTM网络、GCN网络、以及Sinkhorn网络。


5.根据权利要求1至4中任意一项所述的基于图神经网络嵌入匹配的知识图谱问答方法,其特征在于,步骤(3)中的图嵌入匹配模型是通过以下步骤训练得到的:
(3-1)获取P对问题-答案数据构成的训练集和K对问题-答案数据构成的测试集,分别对训练集和测试集执行上述进步骤(1)和步骤(2)的处理,以得到P对训练用查询图与训练主题图,以及K对测试用查询图与测试用主题图;其中P和K均为自然数,且P和K的比例是4:1。
(3-2)获取步骤(3-1)得到的P个训练用查询图中每张训练用查询图对应的所有实体、实体之间的关系,将每张训练用查询图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中,以得到每个实体和每个关系中每个单词的词向量(其是d维),一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵其中C表示实体中的单词数目;一个关系中所有单词的词向量构成该关系对应的一个B×d维关系单词词向量矩阵其中B表示关系中的单词数目,d=300;
(3-3)将一个实体对应的实体单词词向量矩阵输入到LSTM网络中,以得到该实体的1×d维实体词向量Ew,构成N×d维实体词向量矩阵ZE,其中N表示训练用查询图中的实体数目;将一个关系对应的关系单词词向量矩阵输入到LSTM网络中,以得到该关系的1×d维关系词向量Rw,构成L×d维关系词向量矩阵ZR,其中L表示训练用查询图的关系数目;将获取的实体词向量矩阵ZE和关系词向量矩阵ZR,进行拼接处理,以得到(N+L)×d维的词向量矩阵Z,依据训练用查询图中实体与实体间的邻接关系、以及实体与关系间的连接关系进行计算,以得到(N+L)×(N+L)维邻接矩阵A,将获取的词向量矩阵Z以及邻接矩阵A同时输入到GCN中,以得到训练用查询图的实体特征向量矩阵
(3-4)获取步骤(3-1)得到的P个训练用主题图中每张训练用主题图对应的所有实体、实体之间的关系,将每张训练用主题图对应的每个实体和每个关系输入到已训练好的公共词向量GloVe模型中,以得到每个实体和每个关系中每个单词的词向量(其是d维),一个实体中所有单词的词向量构成该实体对应的一个C×d维实体单词词向量矩阵其中C表示实体中的单词数目;一个关系中所有单词的词向量构成该关系对应的一个B×d维关系单词词向量矩阵其中B表示关系中的单词数目,d=300;
(3-5)将一个实体对应的实体单词词向量矩阵输入到LSTM网络中,以得到该实体的1×d维实体词向量Ew,构成M×d维实体词向量矩阵ZE,其中M表示训练用主题图的实体数目;将一个关系对应的关系单词词向量矩阵输入到LSTM网络中,以得到该关系的1×d维关系词向量...

【专利技术属性】
技术研发人员:李肯立李旻佳刘楚波肖国庆周旭阳王东唐卓李克勤
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1