一种扩充知识图谱的方法、电子设备及存储介质技术

技术编号:26762684 阅读:12 留言:0更新日期:2020-12-18 23:14
本发明专利技术实施例涉及知识图谱技术领域,公开了一种扩充知识图谱的方法、电子设备及存储介质,该方法通过获取关键词,在预设数据库中查找出所述关键词所在的本体,根据所述关键词所在的本体和所述知识图谱,获取待处理文本数据中的第一类语句和第二类语句,根据所述知识图谱,对所述第一类语句标注对应的第一三元组,利用标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型,利用所述关系识别模型识别所述第二类语句,确定所述第二类语句对应的第二三元组,最后,将所述第二类语句对应的第二三元组添加至所述知识图谱。也即,能通过某领域的关键词,自动抽取该领域下的三元组,添加至所述知识图谱中,以扩充所述知识图谱。

【技术实现步骤摘要】
一种扩充知识图谱的方法、电子设备及存储介质
本专利技术实施例涉及知识图谱
,尤其涉及一种扩充知识图谱的方法、电子设备及存储介质。
技术介绍
互联网作为当今最为便捷的信息获取平台,用户通过互联网获取有效信息的需求日益迫切,如何从海量数据中获取有效值的信息成为一个难题,知识图谱由此应运而生。知识图谱(knowledgegraph,KG)本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示一个实体,每条边表示实体与实体之间的关系。其中,实体指具有可区别性且独立存在的某种事物,例如某一个人、某一个城市、某一种植物、某一种商品等。知识图谱是关系的最有效的表示方式,旨在描述真实世界中存在的各种实体或概念以及关系。知识图谱通过将数据结构化,输出包括主体(subject)、谓语(property)、客体(object)的三元组(SPO)。例如,广州是广东省的省会这一知识,在知识图谱中即可用三元组<广东省,省会,广州>进行表示。知识图谱被广泛运用于推荐系统、信息检索、智能问答系统等文本处理任务中。然而,知识图谱对某领域存在的实体的覆盖往往是不全面的,知识图谱中收录的实体数量经常小于现实某领域中实际存在的实体数,因此,需要不断地扩充知识图谱。现有技术中,通常分开定义关系集合和实体对集合,即将schema构建、实体识别、关系抽取等流程分开处理,每次进行三元组抽取的时候都要重复性地执行两两之间的连接,不能实现自动抽取三元组并添加。
技术实现思路
本专利技术实施例的主要目的是提供一种扩充知识图谱的方法、电子设备及存储介质,能通过某领域的关键词自动扩充知识图谱的三元组。为解决上述技术问题,第一方面,本专利技术实施例中提供给了一种扩充知识图谱的方法,包括:获取关键词;根据所述关键词,在预设数据库中查找出所述关键词所在的本体,所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别,所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对;根据所述关键词所在的本体和知识图谱,获取待处理文本数据中的第一类语句和第二类语句,其中,所述第一类语句中的实体对为所述本体中的实体对,且所述第一类语句中的实体对存在于所述知识图谱中,所述第二类语句中的实体对为所述本体中的实体对,但所述第二类语句的实体对未存在于所述知识图谱中;根据所述知识图谱,对所述第一类语句标注第一三元组,所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系;利用标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型;利用所述关系识别模型识别所述第二类语句,确定所述第二类语句对应的第二三元组;将所述第二三元组添加至所述知识图谱。在一些实施例中,所述根据所述关键词,在预设数据库中查找出所述关键词所在的本体,包括:获取所述关键词的类别;根据所述关键词的类别,获取所述关键词的类别的上位类别,和/或,所述关键词的类别的下位类别;分别获取所述关键词的类别的上位类别下的至少一个实体和所述关键词的类别下的至少一个实体,和/或,所述关键词的类别的下位类别下的至少一个实体和所述关键词的类别下的至少一个实体;将所述关键词的类别下的一实体和所述关键词的类别的上位类别下的一实体构成所述本体中的一实体对,和/或,将所述关键词的类别下的一实体和所述关键词的类别的下位类别下的一实体构成所述本体中的一实体对。在一些实施例中,所述根据所述关键词所在的本体和所述知识图谱,获取待处理文本数据中的第一类语句和第二类语句,包括:遍历所述本体,获取所述本体中的各个实体对;遍历所述待处理文本数据中的每一个语句;如果目标语句中包含目标实体对对应的两个实体,且所述目标实体对存在于所述知识图谱中,则确定所述目标语句为第一类语句,所述目标语句为待处理文本数据中的任一语句,所述目标实体对为所述本体中的任一实体对;如果所述目标语句中包含目标实体对对应的两个实体,且所述目标实体对未存在于所述知识图谱中,则确定所述目标语句为第二类语句在一些实施例中,所述根据所述知识图谱,对所述第一类语句标注第一三元组,包括:根据所述目标实体对,在所述知识图谱中查找所述目标实体对对应的三元组;利用所述目标实体对对应的三元组标注所述第一类语句。在一些实施例中,所述对所述标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型,包括:对所述第一类语句进行第一特征处理,获取特征向量样本,所述特征向量样本对应的标签为所述第一三元组中的关系;对所述特征向量样本以及所述特征向量样本对应的标签进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型。在一些实施例中,所述对所述第一类语句进行第一特征处理,获取特征向量样本,包括:根据所述第一三元组,获取所述第一三元组对应的至少一个第三类语句,所述第三类语句包括所述第一三元组对应的两个实体;对所述至少一个第三类语句进行第二特征处理,分别获取所述至少一个第三类语句各自对应的子特征向量;组合所述子特征向量获得所述特征向量样本。在一些实施例中,所述组合所述子特征向量获得所述特征向量样本,包括:根据所述预设数据库,获取所述第一三元组对应的两个实体的类别之间的关系;如果所述第一三元组对应的两个实体的类别之间的关系至少存在两种,则确定所述特征向量样本为所述子特征向量的加权和;如果所述第一三元组对应的两个实体的类别之间的关系有且只有一种,则确定所述特征向量样本为所述子特征向量的平均值。在一些实施例中,在所述将所述第二三元组添加至所述知识图谱的步骤之前,还包括:对所述第二三元组进行校对。为解决上述技术问题,第二方面,本专利技术实施例中提供给了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第一方面所述的方法。为解决上述技术问题,第三方面,本专利技术实施例中提供给了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行如上第一方面所述的方法。本专利技术实施例的有益效果:区别于现有技术的情况,本专利技术实施例提供的扩充知识图谱的方法,获取关键词,在预设数据库中查找出所述关键词所在的本体,根据所述关键词所在的本体和所述知识图谱,获取待处理文本数据中的第一类语句和第二类语句,根据所述知识图谱,对所述第一类语句标注对应的第一三元组,利用标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系本文档来自技高网...

【技术保护点】
1.一种扩充知识图谱的方法,其特征在于,包括:/n获取关键词;/n根据所述关键词,在预设数据库中查找出所述关键词所在的本体,所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别,所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对;/n根据所述关键词所在的本体和知识图谱,获取待处理文本数据中的第一类语句和第二类语句,其中,所述第一类语句中的实体对为所述本体中的实体对,且所述第一类语句中的实体对存在于所述知识图谱中,所述第二类语句中的实体对为所述本体中的实体对,但所述第二类语句的实体对未存在于所述知识图谱中;/n根据所述知识图谱,对所述第一类语句标注第一三元组,所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系;/n利用标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型;/n利用所述关系识别模型识别所述第二类语句,确定所述第二类语句对应的第二三元组;/n将所述第二三元组添加至所述知识图谱。/n

【技术特征摘要】
1.一种扩充知识图谱的方法,其特征在于,包括:
获取关键词;
根据所述关键词,在预设数据库中查找出所述关键词所在的本体,所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别,所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对;
根据所述关键词所在的本体和知识图谱,获取待处理文本数据中的第一类语句和第二类语句,其中,所述第一类语句中的实体对为所述本体中的实体对,且所述第一类语句中的实体对存在于所述知识图谱中,所述第二类语句中的实体对为所述本体中的实体对,但所述第二类语句的实体对未存在于所述知识图谱中;
根据所述知识图谱,对所述第一类语句标注第一三元组,所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系;
利用标注有所述第一三元组的第一类语句进行训练,以学习所述第一类语句与所述第一三元组之间的关联关系,得到关系识别模型;
利用所述关系识别模型识别所述第二类语句,确定所述第二类语句对应的第二三元组;
将所述第二三元组添加至所述知识图谱。


2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词,在预设数据库中查找出所述关键词所在的本体,包括:
获取所述关键词的类别;
根据所述关键词的类别,获取所述关键词的类别的上位类别,和/或,所述关键词的类别的下位类别;
分别获取所述关键词的类别的上位类别下的至少一个实体和所述关键词的类别下的至少一个实体,和/或,所述关键词的类别的下位类别下的至少一个实体和所述关键词的类别下的至少一个实体;
将所述关键词的类别下的一实体和所述关键词的类别的上位类别下的一实体构成所述本体中的一实体对,和/或,将所述关键词的类别下的一实体和所述关键词的类别的下位类别下的一实体构成所述本体中的一实体对。


3.根据权利要求1所述的方法,其特征在于,所述根据所述关键词所在的本体和所述知识图谱,获取待处理文本数据中的第一类语句和第二类语句,包括:
遍历所述本体,获取所述本体中的各个实体对;
遍历所述待处理文本数据中的每一个语句;
如果目标语句中包含目标实体对对应的两个实体,且所述目标实体对存在于所述知识图谱中,则确定所述目标语句为第一类语句,所述目标语句为所述待处理文本数据中的任一语句,所述目标实体对为所述本体中的任一实体对;
如果所述目标语句中包含目标实体对对应的两个实体,且所述目标实体对未存在于所述知识图谱中,则确定所述目标语句为第...

【专利技术属性】
技术研发人员:曾钢欣
申请(专利权)人:深圳数联天下智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1