【技术实现步骤摘要】
一种基于实体语义强度的知识图谱中知识不一致性检测方法
[0001]本专利技术涉及知识图谱中知识不一致性检测方法,特别是涉及一种基于实体语义强度的知识图谱中知识不一致性检测方法。
技术介绍
[0002]知识图谱是一种比较通用的语义知识的形式化描述框架,它使用节点表示语义符号,用边表示符号之间的语义关系,是大数据时代知识表示最重要的一种方式。知识图谱的出现极大促进了机器理解语言的进程,使得机器具备认知智能、“像人一样思考”成为可能,在智能信息检索、问答系统、精准推荐等人工智能领域获得广泛应用。
[0003]然而,大数据时代虽然促进了知识图谱的发展,在爆炸式数据规模增长的背后所隐藏的数据质量问题也为知识图谱的应用埋下了隐患。一方面来说,由于知识图谱的数据驱动特性,数据质量的下降必然导致知识质量受到威胁;另一方面,自然语言处理的错误、冲突的数据源致使在知识图谱的构建过程中产生大量噪音。总体说来,大规模知识图谱的不一致性检测面临三点挑战:由于知识的离散性,很难使用本体推理技术检测到所有不一致性知识;尽管知识图谱中的实体和关系富 ...
【技术保护点】
【技术特征摘要】
1.一种基于实体语义强度的知识图谱中知识不一致性检测方法,其特征在于,所述方法包括:步骤S1、对知识图谱数据集进行预处理,首先根据知识图谱中实体的类型信息,增加类型三元组作为所述知识图谱数据集的补充,接着根据负样本生成原则生成负样本;步骤S2、将步骤S1中经过预处理后的数据集中的知识图谱抽象成图模型的表示形式,根据头实体能到达的节点抽取实体子图,利用实体子图上的资源信息流动表示实体对之间的关联强度;步骤S3、获取三元组中实体和关系在低维向量空间上的表示,计算其余弦相似度以表示头实体到尾实体的语义相似值;步骤S4、统计三元组中关系对应的尾实体在知识图谱中的出现频率,并根据关系和尾实体的结合程度衡量关系对应三元组的路径可信度;步骤S5、根据步骤S2中确定的三元组的关联强度、步骤S3中确定的语义相似值以及步骤S4中确定的结合程度构建特征工程,利用多分类器训练不一致性识别模型,完成所有可能不一致性类型的识别。2.根据权利要求1所述的一种基于实体语义强度的知识图谱中知识不一致性检测方法,其特征在于,所述步骤S1具体包括:步骤S101、将知识图谱中实体所属类型信息转换成三元组表示形式,以保证知识图谱中数据的完全性;步骤S102、根据知识图谱中知识的三元组表现形式以及知识图谱构建过程中出现的问题,所述知识图谱构建过程中出现的问题具体包括:自然语言处理过程中出现的词汇相似问题、实体抽取中出现的冗余问题、知识融合中出现的一词多义问题、多数据源导致的数据冲突问题,对所述的知识不一致进行划分,其中,对于目标三元组(h,r,t),其相应的不一致性具体包括:关系不一致性:实体不一致性:类型不一致性:其中,G表示知识图谱所含知识,E、R分别代表知识图谱中的实体集和关系集,h,t∈E,r∈R;步骤S103、根据步骤S102中的三种类型的不一致性,以及特征,按照1:1方式生成不一致性的负样本,其中,所述特征具体为:在知识图谱构建过程中,相似的实体与其对应的关系,发生错误映射时,所表示的特征;实体不一致性、关系不一致性、类型不一致性的所对应的负样本的比例为:25%、12.5%、12.5%。3.根据权利要求2所述的一种基于实体语义强度的知识图谱中知识不一致性检测方
法,其特征在于,所述步骤S2具体包括:步骤S201、遍历知识图谱中每一条三元组,以三元组中的实体为节点、关系为边构建知识图谱的有向图表示;步骤S202、对于知识图谱中的每个实体,使用深度优先搜索遍历找到该实体能连接到的实体集,并记录实体搜寻路径,以此构建实体子图;步骤S203、对于知识图谱中的每个三元组,根据其头实体所在实体子图中的资源流动情况,计算头实体流动到尾实体的信息分配值,即表示该三元组中实体对之间的关联强度,其中,该信息分配值计算表达式如下:公式中,E
i
‑1(
·
,e)表示经过路径r
i
到达e的直接前...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。