基于实体关系消歧的知识图谱问答方法、系统以及终端技术方案

技术编号:24457799 阅读:17 留言:0更新日期:2020-06-10 16:04
本发明专利技术涉及信息技术领域,涉及一种基于实体关系消歧的知识图谱问答方法、系统以及终端;所述方法包括获取用户终端输入的问句文本,识别出所述问句文本中的实体提及词、属性提及词和特定关系;将实体提及词和属性提及词链接到预先构建的知识图谱中,并根据所链接到的每个实体的二度关系子图建立出语义超图;利用从所述语义超图中包含出的每个实体的多粒度上下文特征,使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧;本发明专利技术通过一度关系子树和二度关系子树的评价得分,本发明专利技术避免的问句中隐式表达的信息被遗漏的问题。通过多粒度特征大大提升了实体和关系的消岐能力,大大提高了系统回答问题的准确率。

Question answering method, system and terminal of knowledge map based on entity relation disambiguation

【技术实现步骤摘要】
基于实体关系消歧的知识图谱问答方法、系统以及终端
本专利技术涉及信息
,特别是自然语言处理子领域,具体涉及一种基于语义超图联合消岐与评价的知识库问答方法、装置及终端。
技术介绍
随着互联网的飞速发展,各种知识日渐丰富甚至呈爆炸式增长;而知识图谱则能够很好的存储海量的知识,是人工智能领域中的一个重要方向,而如何利用好知识图谱来满足人们对于知识获取的需求也越来越需要被重视。所以能够通过自然语言问句去查询知识图谱获得问题的答案变得十分重要。知识库问答的目的是为人们提供有力的知识获取工具。而自然语言问句不能被计算机直接利用,所以需要先对问句进行问句理解,目前问句理解的方法包含语义解析、信息抽取以及向量建模等不同的方式。但目前多数的问答系统主要针对单一的、孤立的、事实性的问题,在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度,虽然许多研究机构和企业在开展智能问答研究,但其技术水平还有待进一步提高,且多数问答系统如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题,一般也无法做出满意的回答。中国专利CN110334272A提出的基于知识图谱的智能问答方法、装置及计算机可读存储介质使用知识图谱对文本数据中的信息进行筛选,从而可以直接对其中的知识进行处理,且相似度是通过词频、逆向频率值和欧式距离计算而出,故而可以更直观的表现出问题之间的相似度。该专利可以实现精准的基于知识图谱的智能问答功能。但在知识图谱中,相同名称的实体可能有多个,仅仅通过问题中的语义理解将很难明确用户究竟想询问的是哪一个具体的实体;而中国专利CN110580284A提出了一种实体消歧方法、装置、计算机设备及存储介质,该方案通过植入于知识图谱问答对话系统之中,不断地根据用户使用来更新其用户画像子树,以有效挖掘用户的关注点和喜好,并根据用户画像子树与用户目标问题中涉及的实体子树之间的距离来精简消歧过程,当判断用户本次目标问题所涉及的实体子树与用户画像子树之间的距离小于预设长度,则选取所述实体子树中层级最低且与所述用户画像子树距离最近的实体,作为用户本次目标问题的回答实体,从而有效利用所挖掘用户的关注点和喜好进行实体消歧,避免了用户多次重复输入已提供信息的情况,降低了问答对话系统交互轮数,提升了用户在使用问答系统时的便捷性。但是,现有的实体消岐方法大多利用提及词和实体本身的信息进行消岐,而忽略了利用知识图谱和问句所带有的信息。而查询关系消岐方面,现有的技术是通过人工设计的模板和规则把所有的可能结果都生成出来然后再评价排序,导致效率较低。
技术实现思路
基于现有技术存在的问题,本专利技术针对实体消歧方法进行了改进,其能够充分的利用问句信息和知识图谱的信息,对问句进行更充分的理解,信息抽取方法带入的大量有歧义的信息,能够利用多粒度上下文特征进行消岐,提升本专利技术的精度,得到更加准确的结果。本专利技术所采用的技术方案包括:在本专利技术的第一方面,一种基于实体关系消歧的知识图谱问答方法,包括以下步骤:S1、获取用户终端输入的问句文本,识别出所述问句文本中的实体提及词、属性提及词和特定关系,并抽取出候选实体;S2、将实体提及词和属性提及词链接到预先构建的知识图谱中,并根据链接到知识图谱中的候选实体的二度关系子图建立出语义超图;S3、从所述语义超图中提取每个实体的多粒度上下文特征,使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧;S4、在联合消歧后的语义超图中,将每个实体顶点的一度关系子图中各个一度关系子树的实体及其实体关系按顺序拼接为第一字符串,计算出生成第一字符串的字符集合与问句字符集合的第一字面相似度,以及第一字符串与问句的第一语义相似度;S5、计算出各个一度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第一交集数;根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分;选择评价得分较高的作为第一候选答案子树;S6、对第一候选答案子树进行拓展,将扩展后的二度关系子树中的实体及其实体关系按顺序拼接为第二字符串,计算生成第二字符串的字符集合与问句字符集合的第二字面相似度;若该第二字面相似度小于步骤S5所计算的第一字面相似度,则去掉该二度关系子树;否则继续计算第二字符串与问句的第二语义相似度;S7、计算出各个二度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第二交集数;根据所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分;并将各个二度关系子树作为第二候选答案子树;S8、获得在第一候选答案子树与第二候选答案子树中评价得分最高的候选答案查询子树,用该评价得分最高的候选答案查询子树生成查询语句在对应的图数据库中查询答案。在本专利技术的第二方面,一种基于实体关系消歧的知识图谱问答系统,所述系统包括:识别抽取模块:用于识别出用户终端输入的问句文本中的实体提及词、属性提及词和特定关系,并抽取出候选实体;语义超图构建模块:用于根据每个实体的二度关系子图,建立出用于问句理解的语义超图;特征抽取模块:用于提取每个实体顶点的多粒度上下文特征;联合消岐模块:用于通过二分类线性回归对语义超图中的实体和关系进行联合消歧;一度关系子图构建模块:用于构建语义超图的一度关系子图;第一候选答案子树选择模块:用于通过第一交集数、第一语义相似度以及第一字面相似度计算出一度关系子图中各个一度关系子树的评价得分,选择评分较高的一度关系子树作为第一候选答案子树;二度关系子树构建模块:用于对第一候选答案子树进行扩展,形成二度关系子树;第二候选答案子树选择模块:用于通过第二交集数、第二语义相似度以及第二字面相似度计算出各个二度关系子树中实体的评价得分,选择评分较高的二度关系子树作为第二候选答案子树;回归查询模块:通过二分类线性回归,获得评分最高的候选答案查询子图,将最终答案查询子图生成查询语句在所构建好的知识图谱中查询答案。在本专利技术的第三方面,本专利技术还提出了一种基于实体关系消歧的知识图谱问答终端,所述终端包括处理器和存储器,所述存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的一种基于实体关系消歧的知识图谱问答方法。本专利技术的有益效果:本专利技术充分利用知识图谱中的信息对问句文本进行理解,避免的问句中隐式表达的信息被遗漏的问题。同时通过多粒度特征大大提升了实体和关系的消岐能力,提升了知识库问答系统过滤错误信息的能力,大大提高了系统回答问题的准确率。附图说明图1为本专利技术实施例提供的一种基于实体关系消歧的知识图谱问答方法的流程图;图2为本专利技术实施例提供的一种实体关系联合抽取模型示意图;图3是本专利技术实施例提供的一种文本相似度匹配评价模型示意图;图4为本专利技术实施例提供的另一种基于实体关系消歧的知识图谱问答方法的流程图;图5是本专利技术实施本文档来自技高网
...

【技术保护点】
1.一种基于实体关系消歧的知识图谱问答方法,其特征在于,包括以下步骤:/nS1、获取用户终端输入的问句文本,识别出所述问句文本中的实体提及词、属性提及词和特定关系,并抽取出候选实体;/nS2、将实体提及词和属性提及词链接到预先构建的知识图谱中,并根据链接到知识图谱中的候选实体的二度关系子图建立出语义超图;/nS3、从所述语义超图中提取每个实体的多粒度上下文特征,使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧;/nS4、在联合消歧后的语义超图中,将每个实体顶点的一度关系子图中各个一度关系子树的实体及其实体关系按顺序拼接为第一字符串,计算出生成第一字符串的字符集合与问句字符集合的第一字面相似度,以及第一字符串与问句的第一语义相似度;/nS5、计算出各个一度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第一交集数;根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分;选择评价得分较高的作为第一候选答案子树;/nS6、对第一候选答案子树进行拓展,将扩展后的二度关系子树中的实体及其实体关系按顺序拼接为第二字符串,计算生成第二字符串的字符集合与问句字符集合的第二字面相似度;若该第二字面相似度小于步骤S5所计算的第一字面相似度,则去掉该二度关系子树;否则继续计算第二字符串与问句的第二语义相似度;/nS7、计算出各个二度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第二交集数;根据所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分;并将各个二度关系子树作为第二候选答案子树;/nS8、获得在第一候选答案子树与第二候选答案子树中评价得分最高的候选答案查询子树,用该评价得分最高的候选答案查询子树生成查询语句在对应的图数据库中查询答案。/n...

【技术特征摘要】
1.一种基于实体关系消歧的知识图谱问答方法,其特征在于,包括以下步骤:
S1、获取用户终端输入的问句文本,识别出所述问句文本中的实体提及词、属性提及词和特定关系,并抽取出候选实体;
S2、将实体提及词和属性提及词链接到预先构建的知识图谱中,并根据链接到知识图谱中的候选实体的二度关系子图建立出语义超图;
S3、从所述语义超图中提取每个实体的多粒度上下文特征,使用极端梯度提升算法进行二分类线性回归对实体和关系进行联合消歧;
S4、在联合消歧后的语义超图中,将每个实体顶点的一度关系子图中各个一度关系子树的实体及其实体关系按顺序拼接为第一字符串,计算出生成第一字符串的字符集合与问句字符集合的第一字面相似度,以及第一字符串与问句的第一语义相似度;
S5、计算出各个一度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第一交集数;根据所述第一交集数、所述第一语义相似度以及所述第一字面相似度计算出各个一度关系子树的评价得分;选择评价得分较高的作为第一候选答案子树;
S6、对第一候选答案子树进行拓展,将扩展后的二度关系子树中的实体及其实体关系按顺序拼接为第二字符串,计算生成第二字符串的字符集合与问句字符集合的第二字面相似度;若该第二字面相似度小于步骤S5所计算的第一字面相似度,则去掉该二度关系子树;否则继续计算第二字符串与问句的第二语义相似度;
S7、计算出各个二度关系子树中的实体关系集合与步骤S1抽取出的特定关系集合的第二交集数;根据所述第二交集数、所述第二语义相似度以及所述第二字面相似度计算出各个二度关系子树的评价得分;并将各个二度关系子树作为第二候选答案子树;
S8、获得在第一候选答案子树与第二候选答案子树中评价得分最高的候选答案查询子树,用该评价得分最高的候选答案查询子树生成查询语句在对应的图数据库中查询答案。


2.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法,其特征在于,所述步骤S1中包括利用基于神经网络的实体关系联合抽取模型,抽取问句中的实体提及词和特定关系;使用实体提及词典、属性提及词典抽取问句文本中的实体提及词和属性提及词,并进行扩充,形成候选实体和属性值提及词集合。


3.根据权利要求1所述的一种基于实体关系消歧的知识图谱问答方法,其特征在于,所述步骤S3包括从所述语义超图中提取每个实体顶点的词语级特征,知识图谱上下文特征以及自然语言问句级特征;使用极端梯度提升算法进行二分类线性回归进行初步的联合消岐,保留语义超图中得分前五的实体顶点以及所述实体顶点的连接关系;其中词语级特征包括实体的长度特征fe-length,提及词与问句的词重叠数fm-overla...

【专利技术属性】
技术研发人员:周政邓蔚胡峰韩雨亭
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1