【技术实现步骤摘要】
知识图谱的数据融合方法和装置
本申请涉及知识图谱
,特别地,涉及一种知识图谱的数据融合方法和装置。
技术介绍
知识图谱是一种描述现实世界中存在的各种实体或概念及其关系而构成的一张巨大的语义网络图,其节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。其中:实体是指具有可区别性且独立存在的某种事物,比如某个国家、某家公司、某个人等。属性是指一个实体的内在特性,比如国家具有“人口”、“面积”等不同属性(如图4所示),公司具有“名称”、“法定代表人”等属性。关系是一个实体与另一个实体的关联特征,比如某个公司注册在某个国家,某个人就职于某个公司等。知识图谱的节点和边一般用三元组(S-P-O,Subject-Property-Object)的形式来定义,包括(实体1-关系-实体2)和(实体-属性-属性值)等形式,知识图谱可以表示为三元组的集合,在数据模型上可以表现为图的形式(如图4所示),并采用图数据库来进行数据的存储和管理。现实世界中知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识库层次结构缺失等问题;另外,不同 ...
【技术保护点】
1.一种知识图谱的数据融合方法,其特征在于,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。
【技术特征摘要】
1.一种知识图谱的数据融合方法,其特征在于,执行所述方法的系统包括配置有统一访问接口的数据平台,所述方法包括:将来自不同数据源的数据进行处理后转换为三元组格式,通过所述统一访问接口存储到数据平台,并接收所述数据平台返回的图数据索引信息;根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区;对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对;对所述匹配实体对的实体属性值进行补充和/或替换,生成统一的实体表示。2.根据权利要求1所述的方法,其特征在于,在步骤根据所述图数据索引信息,将所述数据平台中存储的实体按属性划分为一个或多个子分区之前,还包括:将来自多个数据源的转换为三元组格式之后存储在数据平台中的实体根据其属性的实际含义进行对齐。3.根据权利要求1所述的方法,其特征在于,所述子分区划分方式为根据实体属性产生的全局唯一分区键进行等值划分,或基于预设聚类模型进行划分。4.根据权利要求1所述的方法,其特征在于,对划分到相同子分区中的候选实体对进行相似度计算,筛选出满足预设相似度条件的匹配实体对,具体为:为实体本身的属性以及与该实体相关的其他实体的属性分别设置不同的权重,加权求和计算候选实体对的总体相似度;若相同子分区中的候选实体对的总体相似度超过预设相似度阈值,则将该候选实体对作为匹配实体对。5.根据权利要求1所述的方法,其特征在于,对缺失的实体属性值进行补充的方法为通过爬虫从网络获取或进行人工填充。6.根据权利要求1所述的方法,其特征在于,所述图数据索引信息为三元组格式的图数据在所述数据平台的存储地址及其元数据。7.一种知识图谱的数据融合装置,其特征在于,包括数据平台、数据预处理模块、实体分区模块、实体匹配模块和实体融合模块,其...
【专利技术属性】
技术研发人员:刘涛,朱宏明,顾江,姜逸之,王晓文,周游,
申请(专利权)人:颖投信息科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。