一种扩充知识图谱的方法、电子设备及存储介质技术

技术编号：26762684 阅读：12 留言：0更新日期：2020-12-18 23:14

本发明专利技术实施例涉及知识图谱技术领域，公开了一种扩充知识图谱的方法、电子设备及存储介质，该方法通过获取关键词，在预设数据库中查找出所述关键词所在的本体，根据所述关键词所在的本体和所述知识图谱，获取待处理文本数据中的第一类语句和第二类语句，根据所述知识图谱，对所述第一类语句标注对应的第一三元组，利用标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型，利用所述关系识别模型识别所述第二类语句，确定所述第二类语句对应的第二三元组，最后，将所述第二类语句对应的第二三元组添加至所述知识图谱。也即，能通过某领域的关键词，自动抽取该领域下的三元组，添加至所述知识图谱中，以扩充所述知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】
一种扩充知识图谱的方法、电子设备及存储介质
本专利技术实施例涉及知识图谱
，尤其涉及一种扩充知识图谱的方法、电子设备及存储介质。
技术介绍
互联网作为当今最为便捷的信息获取平台，用户通过互联网获取有效信息的需求日益迫切，如何从海量数据中获取有效值的信息成为一个难题，知识图谱由此应运而生。知识图谱(knowledgegraph，KG)本质上是语义网络，是一种基于图的数据结构，由节点和边组成。在知识图谱里，每个节点表示一个实体，每条边表示实体与实体之间的关系。其中，实体指具有可区别性且独立存在的某种事物，例如某一个人、某一个城市、某一种植物、某一种商品等。知识图谱是关系的最有效的表示方式，旨在描述真实世界中存在的各种实体或概念以及关系。知识图谱通过将数据结构化，输出包括主体(subject)、谓语(property)、客体(object)的三元组(SPO)。例如，广州是广东省的省会这一知识，在知识图谱中即可用三元组<广东省，省会，广州>进行表示。知识图谱被广泛运用于推荐系统、信息检索、智能问答系统等文本处理任务中。然而，知识图谱对某领域存在的实体的覆盖往往是不全面的，知识图谱中收录的实体数量经常小于现实某领域中实际存在的实体数，因此，需要不断地扩充知识图谱。现有技术中，通常分开定义关系集合和实体对集合，即将schema构建、实体识别、关系抽取等流程分开处理，每次进行三元组抽取的时候都要重复性地执行两两之间的连接，不能实现自动抽取三元组并添加。
技术实现思路
本专利技术...

【技术保护点】
1.一种扩充知识图谱的方法，其特征在于，包括：/n获取关键词；/n根据所述关键词，在预设数据库中查找出所述关键词所在的本体，所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别，所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对；/n根据所述关键词所在的本体和知识图谱，获取待处理文本数据中的第一类语句和第二类语句，其中，所述第一类语句中的实体对为所述本体中的实体对，且所述第一类语句中的实体对存在于所述知识图谱中，所述第二类语句中的实体对为所述本体中的实体对，但所述第二类语句的实体对未存在于所述知识图谱中；/n根据所述知识图谱，对所述第一类语句标注第一三元组，所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系；/n利用标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型；/n利用所述关系识别模型识别所述第二类语句，确定所述第二类语句对应的第二三元组；/n将所述第二三元组添加至所述知识图谱。/n

【技术特征摘要】
1.一种扩充知识图谱的方法，其特征在于，包括：
获取关键词；
根据所述关键词，在预设数据库中查找出所述关键词所在的本体，所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别，所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对；
根据所述关键词所在的本体和知识图谱，获取待处理文本数据中的第一类语句和第二类语句，其中，所述第一类语句中的实体对为所述本体中的实体对，且所述第一类语句中的实体对存在于所述知识图谱中，所述第二类语句中的实体对为所述本体中的实体对，但所述第二类语句的实体对未存在于所述知识图谱中；
根据所述知识图谱，对所述第一类语句标注第一三元组，所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系；
利用标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型；
利用所述关系识别模型识别所述第二类语句，确定所述第二类语句对应的第二三元组；
将所述第二三元组添加至所述知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述根据所述关键词，在预设数据库中查找出所述关键词所在的本体，包括：
获取所述关键词的类别；
根据所述关键词的类别，获取所述关键词的类别的上位类别，和/或,所述关键词的类别的下位类别；
分别获取所述关键词的类别的上位类别下的至少一个实体和所述关键词的类别下的至少一个实体，和/或，所述关键词的类别的下位类别下的至少一个实体和所述关键词的类别下的至少一个实体；
将所述关键词的类别下的一实体和所述关键词的类别的上位类别下的一实体构成所述本体中的一实体对，和/或，将所述关键词的类别下的一实体和所述关键词的类别的下位类别下的一实体构成所述本体中的一实体对。

3.根据权利要求1所述的方法，其特征在于，所述根据所述关键词所在的本体和所述知识图谱，获取待处理文本数据中的第一类语句和第二类语句，包括：
遍历所述本体，获取所述本体中的各个实体对；
遍历所述待处理文本数据中的每一个语句；
如果目标语句中包含目标实体对对应的两个实体，且所述目标实体对存在于所述知识图谱中，则确定所述目标语句为第一类语句，所述目标语句为所述待处理文本数据中的任一语句，所述目标实体对为所述本体中的任一实体对；
如果所述目标语句中包含目标实体对对应的两个实体，且所述目标实体对未存在于所述知识图谱中，则确定所述目标语句为第...

【专利技术属性】
技术研发人员：曾钢欣，
申请(专利权)人：深圳数联天下智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人