一种基于知识图谱的多跳问答方法及装置制造方法及图纸

技术编号:35140206 阅读:14 留言:0更新日期:2022-10-05 10:16
本发明专利技术公开了一种基于知识图谱的多跳问答方法及装置,该方法包括:泛化问题实体名称;基于泛化后的问题实体以及知识图谱,识别问题关系;基于泛化后的问题实体和识别出的问题关系,得到多跳问答的答案。本发明专利技术通过泛化问题实体和问题关系提升了知识图谱问答的泛化能力,为知识图谱多跳问答提供了一种新的问答策略。略。略。

【技术实现步骤摘要】
一种基于知识图谱的多跳问答方法及装置


[0001]本专利技术涉及人工智能
,特别是一种基于知识图谱的多跳问答 方法及装置。

技术介绍

[0002]人工智能技术历经六十多年的发展,已经成为现在乃至未来科技革命和 产业变革的重要驱动力,将持续对社会进步、经济发展、人类日常生活、 国际政治格局等方面产生重大而深远的影响。人工智能技术在自然语言处 理、图像处理、智能问答、智能推荐等方面都取得了一定的成果。近年来, 随着大数据时代的来临,帮助用户在海量信息中快速寻找到关注的信息尤 为重要,知识图谱以三元组的形式结构化存储海量信息,包括头实体、尾 实体以及头实体与尾实体之间存在的关系。知识图谱将海量数据表达成客 观世界可认知的语义表示,具有强大的语义表达、存储和表达能力,在军 事领域得到了广泛关注和研究应用。
[0003]传统的知识图谱问答以实体、属性等单一具体对象为主,单跳问答主要 基于知识图谱中一个三元组进行答案检索,通常先确定用户查询的中心实 体,然后链接至知识图谱中确定相关实体从而得到候选答案集合,之后通 过评分或排序的方式找出最可能的答案。目前,现有的知识图谱单跳问答 技术已较成熟,开发者可基于公开的知识图谱问答服务在特定应用领域进 行个性化更改,从而使知识图谱单跳问答达到不错的效果。而在实际应用 场景中,情报用户不再满足于单跳的知识问答,用户更加倾向表达复杂的 多跳问答推理问题,即针对包含多关系的问题,基于知识图谱实现多步推 理,从而检索出问题答案。多跳问答需要基于知识图谱中多个三元组进行 多关系推理,从而检索问题答案,目前仍存在较多困难与挑战,基于知识 图谱的多跳问答存在的问题主要有:
[0004]一、问题泛化能力较弱,问题泛化包括问题实体泛化与问题关系语义泛 化,实际应用场景中用户问题偏向口语化、日常化,而知识图谱中的节点 和关系类型名称较术语化,从而给问题中包含的实体、关系与知识图谱节 点、边之间的精确匹配增加了难度,影响了知识图谱多跳问答的泛化能力;
[0005]二、知识图谱单跳问答只包含一种问题关系,而多跳问答相对于单跳问 答具有更复杂的语义,因此对语义理解模型的要求较高,需要语义理解模 型能从问题文本中准确理解多重语义关系;
[0006]三、多跳问答在知识图谱中检索答案时会涉及多个相关三元组,基于海 量知识图谱能准确查找出多跳问答路径难度较大,因此需探索出一种多跳 路径查询方法,确保准确定位知识图谱的答案节点。
[0007]因此本专利技术针对上述存在的问题,提供了一种有效的基于知识图谱的多 跳问答方法,在知识图谱数据充足的前提下,针对多跳问题能快速、准确 的返回问题答案。

技术实现思路

[0008]鉴于此,本专利技术提供一种基于知识图谱的多跳问答方法及装置,针对 多跳问答中语义关系理解复杂等问题,重点突破了问题实体与图谱节点名 称泛化、问题的多跳关系识别、基于知识图谱答案查询模式等内容,从而 实现问题的多跳关系识别与答案推理检索,同时拓宽了知识图谱问答的应 用范围,更好的服务于各领域。
[0009]本专利技术公开了一种基于知识图谱的多跳问答方法,包括:
[0010]步骤1:泛化问题实体名称;
[0011]步骤2:基于泛化后的问题实体以及知识图谱,识别问题关系;
[0012]步骤3:基于泛化后的问题实体和识别出的问题关系,得到多跳问答的 答案。
[0013]进一步地,所述步骤1包括:
[0014]识别问题实体后,利用问题实体在ES数据库中进行相似检索,将相似 值最高的名称替换问题实体名称,从而实现问题实体名称泛化。
[0015]进一步地,所述识识别问题实体后,利用问题实体名称在ES数据库中 进行相似检索,将相似值最高的名称替换问题实体名称,从而实现问题实 体名称泛化,包括:
[0016]步骤11:创建ES数据库和相关字段,用于存储知识图谱中节点信息;
[0017]步骤12:从知识图谱数据库中将所有节点的名称和节点ID导入ES数 据库中;
[0018]步骤13:输入问题文本;
[0019]步骤14:利用实体识别模型识别出问题实体;
[0020]步骤15:将问题实体基于ES数据库进行相似检索;
[0021]步骤16:返回相似节点名称列表、节点ID列表和相似分数列表,并基 于相似分数按照由大到小排序;
[0022]步骤17:取最大相似分数对应的图谱节点名称作为问题实体。
[0023]进一步地,所述节点的名称包括节点的完整名称、术语名称、简称、缩 写、别名;所述节点ID是每个节点在图谱库中的唯一标识。
[0024]进一步地,所述步骤2包括;
[0025]步骤21:定义并初始化实体列表、问题关系边列表;
[0026]步骤22:将问题实体泛化后的结果添加至实体列表中;
[0027]步骤23:基于知识图谱以问题实体为中心点,查询三元组的尾节点, 并将尾节点添加至实体列表中;
[0028]步骤24:重复执行步骤23,直至问题关系列表不再新增,最终返回问 题关系列表。
[0029]进一步地,所述步骤23包括:
[0030]步骤231:在知识图谱库中以实体列表中最新添加的节点为中心点,检 索出所有相关三元组,存为三元组列表;
[0031]步骤232:遍历三元组列表中每条关系边;
[0032]步骤233:利用基于BERT的语义相似模型将关系边与问题做相似匹配, 返回关系边与相似匹配分数;
[0033]步骤234:设定相似阈值,若相似匹配分数大于相似阈值,将对应关系 边添加至问题关系列表中;
[0034]步骤235:若相似匹配分数小于相似阈值,则重复执行步骤232至步骤 234;
[0035]步骤236:在知识图谱中查询相关三元组,以实体列表中最新添加的实 体为三元组头节点,以问题关系列表最新添加的关系为三元组关系边,利 用Cypher语句查询三元组的尾节点,并将尾节点添加至实体列表中;
[0036]步骤237:重复执行步骤231至步骤236,直至问题关系列表不再新增, 最终返回问题关系列表。
[0037]进一步地,所述步骤3包括:
[0038]步骤31:判断识别出的问题关系的数量;
[0039]步骤32:将问题实体泛化后的节点作为起始节点,在知识图谱中查询 三元组对应的尾实体;
[0040]步骤33:将每次遍历查询的尾实体作为下一次三元组查询的头实体, 重复执行步骤32;
[0041]步骤34:关系列表遍历结束后,返回最终的尾实体名称作为问题答案。
[0042]进一步地,所述步骤31包括:
[0043]步骤311:若问题关系的数量仅为1,则调用知识图谱单跳问答服务, 返回问题答案;
[0044]步骤312:若问题关系的数量大于1,则分别遍历问题关系列表。
[0045]进一步地,所述步骤32包括:
[0046]将问题实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的多跳问答方法,其特征在于,包括:步骤1:泛化问题实体名称;步骤2:基于泛化后的问题实体以及知识图谱,识别问题关系;步骤3:基于泛化后的问题实体和识别出的问题关系,得到多跳问答的答案。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:识别问题实体后,利用问题实体在ES数据库中进行相似检索,将相似值最高的名称替换问题实体名称,从而实现问题实体名称泛化。3.根据权利要求2所述的方法,其特征在于,所述识识别问题实体后,利用问题实体名称在ES数据库中进行相似检索,将相似值最高的名称替换问题实体名称,从而实现问题实体名称泛化,包括:步骤11:创建ES数据库和相关字段,用于存储知识图谱中节点信息;步骤12:从知识图谱数据库中将所有节点的名称和节点ID导入ES数据库中;步骤13:输入问题文本;步骤14:利用实体识别模型识别出问题实体;步骤15:将问题实体基于ES数据库进行相似检索;步骤16:返回相似节点名称列表、节点ID列表和相似分数列表,并基于相似分数按照由大到小排序;步骤17:取最大相似分数对应的图谱节点名称作为问题实体。4.根据权利要求3所述的方法,其特征在于,所述节点的名称包括节点的完整名称、术语名称、简称、缩写、别名;所述节点ID是每个节点在图谱库中的唯一标识。5.根据权利要求1所述的方法,其特征在于,所述步骤2包括;步骤21:定义并初始化实体列表、问题关系边列表;步骤22:将问题实体泛化后的结果添加至实体列表中;步骤23:基于知识图谱以问题实体为中心点,查询三元组的尾节点,并将尾节点添加至实体列表中;步骤24:重复执行步骤23,直至问题关系列表不再新增,最终返回问题关系列表。6.根据权利要求5所述的方法,其特征在于,所述步骤23包括:步骤231:在知识图谱库中以实体列表中最新添加的节点为中心点,检索出所有...

【专利技术属性】
技术研发人员:陈莹崔莹代翔黄刘刘鑫李春豹雋兆波何健军杨露
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1