当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于知识图谱的知识可信度量方法技术

技术编号:28623343 阅读:11 留言:0更新日期:2021-05-28 16:19
本发明专利技术公开了一种基于知识图谱的知识可信度量方法,该方法包含以下步骤:首先,利用知识表示学习算法将知识图谱中的实体和关系向量化,再利用能量函数和sigmoid函数来计算得到关系可信度;之后,根据属性标准集,对知识图谱中的实体属性值进行评估,使用词林相似度和编辑距离结合的方式计算得到属性值可信度;然后,构建问答系统,利用问答系统和问答标准集来对知识图谱中的知识进行问题求解可信度的计算;最后,结合关系可信度、属性值可信度以及问题求解可信度,根据不同的权重进行加权求和,得到知识图谱可信度。该发明专利技术有助于更正知识图谱中的错误知识,提高知识图谱中知识的准确度。

【技术实现步骤摘要】
一种基于知识图谱的知识可信度量方法
本专利技术涉及知识图谱改进领域中的知识图谱知识可信度量,具体涉及一种基于知识图谱的知识可信度量方法。
技术介绍
随着Google在2012年提出“知识图谱”这一概念后,知识图谱在语义搜索、智能问答以及辅助决策等领域得到了广泛的应用,比如说在金融领域利用知识图谱进行风险控制,在搜索领域利用知识图谱对搜索结果进行推荐等。早期知识图谱基本是由人工构建,这样的构建方式不但十分耗费人力,而且无法及时更新现实世界中新增的知识。因此,许多研究人员一直致力于研究如何从非结构化的数据中自动地提取知识,从而能够不断地从网络中获取知识以补全现有的知识图谱。然而,自动化构建技术虽然节省了大量的人力并能够及时地补充新增的知识,但是这样的作法不可避免地会引入大量错误的知识。目前,知识图谱广泛应用于问答、推荐以及搜索等领域,而这些基于知识图谱的应用都在假定知识图谱中的知识是正确的,这势必会存在一些潜在的问题,比如在辅助决策中,错误的知识会导致错误的决策,从而酿成严重的后果。因此,知识图谱的知识可信度量具有重大意义。由于知识图谱的复杂性,如何更好、更准确地去度量知识图谱的知识可信度是目前研究的重点。针对这种问题,本专利技术对基于知识图谱的知识可信度量方法进行了深度研究,提出了一种从关系、属性值以及问题求解三个维度对知识图谱中的知识进行可信度量的方法。
技术实现思路
针对知识图谱中知识是否可信问题,本专利技术提出一种基于知识图谱的知识可信度量方法,旨在量化知识图谱的知识可信度,帮助知识图谱的完善。在领域知识图谱的构建过程中,可以根据评估结果对知识图谱进行改进,修正错误的知识,补充遗漏的知识,进而使得基于该知识图谱的应用能够将知识准确无误地反馈给用户。为实现上述目的,实现本专利技术目的的技术解决方案为:一种基于知识图谱的知识可信度量方法,包括以下步骤:第一步,关系可信度量。首先是训练知识图谱中实体和关系的向量表示,将实体和关系嵌入到低维的向量空间中。然后利用能量函数和sigmoid函数计算得到关系可信度。知识表示学习中的翻译模型将三元组中的关系向量看作头实体向量到尾实体向量的平移。因此,可以利用知识表示学习算法训练得到知识图谱中实体和关系的向量表示,然后利用能量函数来计算出关系的可信程度。理想状态下,一个可信的三元组,其计算出来的能量函数的值应该是无限接近于0,但是实际情况中能量函数的计算结果受制于实体和关系向量表示的训练效果,即使三元组是正确的,其能量函数的值也往往无法接近0值。因此只能通过能量值的大小来判断关系的可信程度,即能量值越小,该三元组的关系便越可信。第二步,实体属性值可信度量。根据属性标准集对实体属性值进行可信性测度。首先,利用词林相似度和编辑距离计算出某一实体每个属性的属性值可信度,根据属性值类型的不同有不同的可信度计算方法。然后,在基于每个实体所有属性的属性值可信度计算出实体层面的属性值可信度。最后,对每个实体的属性值可信度进行加权平均,计算出知识图谱整体的属性值可信度。第三步,问题求解可信度量。首先是构建基于知识图谱的问答系统。然后构建问答标准集,问答标准集中每行包含一个自然语言问句以及该问句对应的标准答案。在问答系统以及问答标准集都构建完毕之后,便可进行问题求解的可信度量。读取问答标准集,每个自然语言问句都输入到问答系统中,根据标准答案以及问答系统输出的答案的差异来计算问题求解可信度,可信度计算方法借鉴了ExactMatch。ExactMatch是衡量预测答案与标准值之间差异的重要指标,被应用到分类、回归等不同任务中。ExactMatch计算的是所有样本中,预测答案与标准答案完全匹配的比例,而本专利技术则选择使用余弦相似度来度量问答系统返回的实际答案与给定标准答案之间的可信值。计算公式如下:其中,Q为所有问题句的集合,PAi是对编号id为i的问题的预测答案,GAi是给定的第i个问题的标准答案。similarity(PAi,GAi)为PAi与GAi的余弦相似度。第四步,知识图谱可信度量。根据前面几个步骤得到的关系可信度、属性可信度以及问题求解可信度计算知识图谱可信度,计算公式如下:tw(KG)=γ1tw(relation)+γ2tw(property)+γ3tw(QA)其中,γ1、γ2、γ3分别表示关系可信度的权重、属性可信度的权重以及问题求解可信度的权重,参数γ1、γ2以及γ3的取值限制为γ1+γ2+γ3=1,对关系可信度、属性可信度以及问题求解可信度进行加权求和,得出知识图谱可信度。与现有技术相比,本专利技术的显著优势在于:该技术方案分别从关系、属性值以及问题求解三个维度来度量知识图谱中知识的可信度,从而能够准确地反映出知识图谱中知识的可信程度;(1)在关系层,本专利技术利用了知识表示算法将实体和关系向量化,再利用能量函数的值来表示关系的可信程度;(2)在属性层,本专利技术根据属性值类型的不同分别采用了不同的方式来计算属性值可信度,在字符串属性值中引入了词林和编辑距离结合的方式来计算可信度,而数值类型的可信度则根据知识图谱中的值与真值的差值来度量;(3)在问题求解层,本专利技术提出了从问题求解的角度去度量知识图谱中知识可信度的方法,在构建出基于知识图谱的问答系统后,引入了余弦相似度来度量问题求解的可信度。附图说明图1基于知识图谱的知识可信性测度流程图。图2关系可信性测度流程图。图3实体属性值可信性测度流程图。图4同义词词林的树形组织结构。图5同义词词林的各层路径权重。图6基于知识图谱的问答流程。具体实施方式为使本专利技术的目的、技术方案和优点更加清晰明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。实施例1:结合附图1,本专利技术一种基于知识图谱的知识可信度量方法,所述方法包含下列步骤:第一步,关系可信度量。知识表示学习算法有许多,在本专利技术的一个具体实施例中,采用了TransE算法来得到实体和关系的向量表示。关系可信度的计算流程如附图2所示,包括以下几个步骤:步骤一,人工构建一个关系标准集,利用TransE算法对实体和关系进行训练,将知识图谱中的实体和关系嵌入到一个低维的向量空间中。步骤二,利用能量函数计算每个三元组关系的可信程度。计算公式如下:E(h,r,t)=||h+r-t||其中,h为三元组中头节点的向量表示,r为三元组中尾节点的向量表示,t为三元组中尾节点的向量表示。步骤三,利用sigmoid函数计算每个关系的可信度。计算公式如下:其中,α是与关系r相关的阈值。步骤四,计算知识图谱的关系可信度,计算公式如下:其中,R为所有三元组集合。第二步,实体属性值可信性度量,使用属性标准集进行知识图谱中实体属性值的可信评估。流程如附图3所示,具体步骤如下:步骤一,利用属本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的知识可信度量方法,其特征在于,包括以下步骤:/n第一步,关系可信度量,首先,使用知识表示算法训练出知识图谱中实体和关系的向量表示,再结合能量函数和sigmoid函数来计算得到关系可信度;/n第二步,属性值可信度量,首先,利用属性标准集计算每一个属性的属性值可信度,根据属性值类型的不同选用不同的计算方法,然后,每个实体综合其所有属性的属性值可信度计算每个实体的属性值可信度,最后,基于每个实体的属性值可信度计算出知识图谱整体的属性值可信度;/n第三步,问题求解可信度量,首先,构建出基于知识图谱的问答系统,然后利用问答标准集和问答系统来计算问题求解可信度;/n第四步,对关系可信度、属性值可信度以及问题求解可信度进行加权求和,计算出知识图谱可信度。/n

【技术特征摘要】
1.一种基于知识图谱的知识可信度量方法,其特征在于,包括以下步骤:
第一步,关系可信度量,首先,使用知识表示算法训练出知识图谱中实体和关系的向量表示,再结合能量函数和sigmoid函数来计算得到关系可信度;
第二步,属性值可信度量,首先,利用属性标准集计算每一个属性的属性值可信度,根据属性值类型的不同选用不同的计算方法,然后,每个实体综合其所有属性的属性值可信度计算每个实体的属性值可信度,最后,基于每个实体的属性值可信度计算出知识图谱整体的属性值可信度;
第三步,问题求解可信度量,首先,构建出基于知识图谱的问答系统,然后利用问答标准集和问答系统来计算问题求解可信度;
第四步,对关系可信度、属性值可信度以及问题求解可信度进行加权求和,计算出知识图谱可信度。


2.根据权利要求1所述的一种基于知识图谱的知识可信度量方法,其特征在于,第一步中关系可信度的计算方法,具体如下:
在使用知识表示算法训练出知识图谱中实体和关系的向量表示后,利用以下公式计算每个三元组的能量值,也即每个三元组的关系可信程度:
E(h,r,t)=||h+r-t||
其中h,r,t分别为一个三元组中头实体的向量表示、关系的向量表示以及尾实体的向量表示;
然后利用sigmoid函数将每个三元组的关系可信程度转化为0到1的值,用于表示每个三元组关系的可信度:



其中,α是与关系有关的阈值;
最后使用以下公式计算关系可信度:



其中,R为所有三元组集合。


3.根据权利要求1所述的一种基于知识图谱的知识可信度量方法,其特征在于,第二步中属性值可信度的计算方法,具体如下:
属性值可信度根据属性值类型的不同有不同的计算方法,假设x与y分别为属性p在属性标准集与知识图谱...

【专利技术属性】
技术研发人员:李必信方文跃李吟
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1