当前位置: 首页 > 专利查询>南京大学专利>正文

面向不完备知识图谱的关系链接方法技术

技术编号:27514107 阅读:18 留言:0更新日期:2021-03-02 18:46
本发明专利技术公开了一种面向不完备知识图谱的关系链接方法,包括以下步骤:对输入的自然语言问句进行关键词提取、命名实体和类型识别与消歧,得到实体与类型链接列表;进行依存分析,获得问句对应的语义依存树,然后进行语义化搜索,判断树中任意实体类型对之间是否存在直接依存关系,得到过滤的实体类型对集合;在知识图谱中枚举所有以过滤出的实体和类型为头节点,且长度小于阈值的关系路径,得到候选关系路径列表;分别利用预训练的语言模型和知识图谱表示学习模型,将问句和候选关系路径转化为向量表示,进行相似度比较,选取相似度最高的候选关系路径作为最终的关系链接结果。本发明专利技术实现了对自然语言问句关系的鲁棒准确链接。实现了对自然语言问句关系的鲁棒准确链接。实现了对自然语言问句关系的鲁棒准确链接。

【技术实现步骤摘要】
面向不完备知识图谱的关系链接方法


[0001]本专利技术涉及知识图谱和自然语言处理
,尤其涉及一种面向不完备知识图谱的关系链接方法,具体是一种基于表示学习的面向不完备知识图谱的关系链接方法,特别是一种通过将自然语言问句和候选关系路径转化为向量进行相似度计算来实现面向关系路径的关系链接方法。

技术介绍

[0002]随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱旨在描述真实世界中存在的各种实体或概念及其相互关系。其中,每个实体或概念用一个全局唯一确定的统一资源标识符来标识。每个属性-值对用来刻画实体的内在特性,而关系用来链接两个实体,刻画它们之间的关联。知识图谱也可以被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。现在比较流行的知识图谱有DBpedia、Wikidata、Freebase、YAGO等,然而这些知识图谱仍然是不完备的。
[0003]自然语言处理(natural language processing)是研究人类用自然语言与计算机之间进行通信的技术,属于语言学、计算机科学、认知科学等相关学科的交叉学科,涉及范围广泛。此领域研究人与计算机交互的语言问题,探讨如何处理及运用自然语言,特别是如何编程计算机以成功处理大量的自然语言数据。处理自然语言的关键是要让计算机“理解”自然语言,自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等,可用于处理语音识别、文本分类、信息检索和智能问答等下游任务。
[0004]关系链接(relation linking)是帮助在自然语言问句和知识图谱之间建立映射关系的一种技术,旨在将自然语言问句中表达关系的单词短语链接到知识图谱中对应的边上。相似地,实体链接技术是将自然语言问句中的实体词汇链接到知识图谱中对应的节点上。实体链接技术已经成为较为成熟的研究,然而关系链接技术却很少受到关注。

技术实现思路

[0005]专利技术目的:针对上述现有技术存在的问题和不足,本专利技术的目的是提供一种面向不完备知识图谱的关系链接方法。在关系链接过程中,使用知识图谱和自然语言处理技术对自然语言问句和候选关系路径进行向量转化,从而实现对自然语言问句关系的鲁棒准确链接。
[0006]技术方案:为实现上述专利技术目的,本专利技术采用的技术方案为一种面向不完备知识图谱的关系链接方法,包括以下步骤:
[0007](1.1)对于输入的一个自然语言问句,提取所述自然语言问句中的关键词,进行命名实体识别与消歧、类型识别与消歧,生成实体与类型链接列表;
[0008](1.2)基于所述步骤(1.1)得到的实体与类型链接列表,进行依存分析,获得所述自然语言问句所对应的语义依存树,然后根据规则将所述语义依存树转化为有向图,并在所述有向图中进行语义化搜索,得到过滤实体类型对集合;
[0009](1.3)基于所述步骤(1.2)得到的实体类型对集合,在知识图谱中枚举所有以过滤出的实体和类型为头节点,且长度小于阈值的关系路径,得到候选关系路径列表;
[0010](1.4)基于所述步骤(1.3)得到的候选关系路径列表,分别利用预训练的语言模型和知识图谱表示学习模型,将所述自然语言问句和候选关系路径转化为向量表示,并进行相似度比较,选取相似度最高的候选关系路径作为最终的关系链接结果。
[0011]进一步的,所述步骤(1.2)包括以下步骤:
[0012](2.1)基于所述步骤(1.1)得到的实体与类型链接列表,进行依存分析,得到所述自然语言问句对应的语义依存树;
[0013](2.2)基于所述步骤(2.1)得到的语义依存树,根据依存关系的名称将依存树建图为有向图,所述有向图中边的方向与权值由依存关系决定;
[0014](2.3)基于所述步骤(2.2)得到的有向图,进行语义化搜索,判断任意实体类型对之间是否存在直接依存关系,若某实体类型对之间存在直接依存关系,则将该实体类型对加入候选集合;遍历完毕所有实体类型对之后,将候选集合作为过滤实体类型对集合。
[0015]进一步的,所述步骤(1.4)包括以下步骤:
[0016](3.1)基于所述步骤(1.1)的输入的自然语言问句,利用预训练的语言模型将所述自然语言问句转化为问句向量;
[0017](3.2)基于所述步骤(1.3)得到的候选关系路径列表,利用预训练的知识图谱表示学习模型,将所述候选关系路径上的关系及实体转化为向量,并通过向量运算得到关系路径向量;
[0018](3.3)基于所述步骤(3.1)得到的问句向量和所述步骤(3.2)得到的关系路径向量,进行相似度评分,得到相似度列表;
[0019](3.4)对所述步骤(3.3)得到的相似度列表进行排序,选择相似度评分最高的路径作为最终的关系链接结果。
[0020]有益效果:(1)使用知识图谱和自然语言处理技术对输入的自然语言问句进行处理,枚举关系路径作为候选项,可以增加有效关系候选项数量的同时有效减少无效候选项的数量,提高了关系链接的效率;(2)基于表示学习的方式对自然语言问句和候选关系路径进行相似度比较,可以捕获更多的语义信息,利于机器的理解和处理,并且提高了关系链接的鲁棒性和准确率。
附图说明
[0021]图1是本专利技术的整体处理流程图;
[0022]图2是本专利技术定义的路径排序模型示意图。
具体实施方式
[0023]下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各
种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0024]本专利技术面向三元组结构的不完备的知识图谱(下文简称为“知识图谱”),提出了一种通过基于自然语言问句枚举候选关系路径,将自然语言问句和候选关系路径转化为向量进行相似度计算,实现面向关系路径的关系链接方法。
[0025]在知识图谱中存在很多事实,它们被表示为单个三元组的形式,例如“动漫人物钢铁侠的出生地是纽约”,在知识图谱中表示为<"钢铁侠","出生地","纽约">。而知识图谱通常是不完备的,即缺失了许多事实。例如,假如在知识图谱中存在<"钢铁侠","出生地","纽约">和<"纽约","城市位于","美国">两个事实,但可能会缺失<"钢铁侠","国籍","美国">这条事实。因此,对于自然语言问句“钢铁侠的国籍是美国吗?”,关系链接技术无法将“国籍”链接到知识图谱中的某条边上,而只能将“国籍”通过“出生在某个地方,该地方是位于美国的城市”的关系路径进行链接。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向不完备知识图谱的关系链接方法,其特征在于,包括以下步骤:(1.1)对于输入的一个自然语言问句,提取所述自然语言问句中的关键词,进行命名实体识别与消歧、类型识别与消歧,生成实体与类型链接列表;(1.2)基于所述步骤(1.1)得到的实体与类型链接列表,进行依存分析,获得所述自然语言问句所对应的语义依存树,然后根据规则将所述语义依存树转化为有向图,并在所述有向图中进行语义化搜索,得到过滤实体类型对集合;(1.3)基于所述步骤(1.2)得到的实体类型对集合,在知识图谱中枚举所有以过滤出的实体和类型为头节点,且长度小于阈值的关系路径,得到候选关系路径列表;(1.4)基于所述步骤(1.3)得到的候选关系路径列表,分别利用预训练的语言模型和知识图谱表示学习模型,将所述自然语言问句和候选关系路径转化为向量表示,并进行相似度比较,选取相似度最高的候选关系路径作为最终的关系链接结果。2.根据权利要求1所述的面向不完备知识图谱的关系链接方法,其特征在于,所述步骤(1.2)包括以下步骤:(2.1)基于所述步骤(1.1)得到的实体与类型链接列表,进行依存分析,得到所述自然语言问句对应的语...

【专利技术属性】
技术研发人员:胡伟赵耀丁基伟
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1