基于义原-义项信息提升知识图谱关系预测性能的方法技术

技术编号:24091408 阅读:33 留言:0更新日期:2020-05-09 08:14
本发明专利技术公开了基于义原‑义项提升知识图谱关系预测性能的方法,该方法的步骤如下:获取知识图谱数据集;获取知识图谱数据集中三元组所对应的文本描述;获取义原‑义项知识库;将知识图谱中的关系和三元组描述表示为基于义原的one‑hot向量;知识图谱嵌入;知识图谱关系预测。本方法在PTransE中关系预测方法的基础之上,利用OpenHowNet开源的义原‑义项数据集,对知识图谱中关系路径对于关系的可靠程度根据关系、关系路径及所涉及的三元组描述的语义信息进行计算,解决了PTransE中仅使用结构信息进行关系预测的问题。使用了义原‑义项的关系预测性能相比于原来的关系预测方法性能有提升。

A method to improve the prediction performance of knowledge map based on the information of sememe and sememe

【技术实现步骤摘要】
基于义原-义项信息提升知识图谱关系预测性能的方法
本专利技术涉及一种基于义原-义项的知识图谱关系预测方法,属于知识图谱领域。
技术介绍
知识图谱主要描述真实世界中实体及其相互关系,组织成图,知识图谱如图1所示。知识图谱定义了实体可能的类和实体间的关系。知识图谱允许任意实体间存在潜在的相互关联。知识图谱涵盖各种主题领域。通常知识图谱表示为三元组的集合,其中三元组的形式是(主语、谓词、宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(阿甘正传,电影的语言,英语))表示一个事实。当被应用于问答系统时,只有当一个知识图谱覆盖了该问题的答案,它才能够提供所需答案。尽管已经有大量的世界知识和领域知识的知识图谱,但是它们距离完备还具有很远的距离,例如Freebase中有30%的人物实体缺少记录他们父母信息的三元组。知识图谱补全方法就是向一个已有的知识图谱中增加新的三元组,且加入的三元组必须是客观事实。知识图谱补全方法的一种方法就是从一个知识图谱中已有的三元组来推理新的三元组。近年来的大量基于TransE的知识图谱补全的工作,这些工作从知识图谱结构信息和本文档来自技高网...

【技术保护点】
1.基于义原-义项信息提升知识图谱关系预测性能的方法,其特征在于:该方法的时间步骤如下,/n步骤(1)获取知识图谱数据集/n所述知识图谱用于描述真实世界中实体及其相互关系,组织成图;知识图谱中存有大量的知识,知识形式为三元组(头实体,关系,尾实体)。/n步骤(2)获取知识图谱数据集中三元组所对应的文本描述/n步骤(3)获取义原-义项知识库/n首先对步骤(1)中获取的知识图谱数据集中所有关系中的单词进行校对,/n然后依托校对后的所有单词和步骤(2)获取的全部三元组描述,利用开源的OpenHowNet网站的API——OpenHowNet,获取校对后的所有单词的义原-义项知识库;/n步骤(4)将知识...

【技术特征摘要】
1.基于义原-义项信息提升知识图谱关系预测性能的方法,其特征在于:该方法的时间步骤如下,
步骤(1)获取知识图谱数据集
所述知识图谱用于描述真实世界中实体及其相互关系,组织成图;知识图谱中存有大量的知识,知识形式为三元组(头实体,关系,尾实体)。
步骤(2)获取知识图谱数据集中三元组所对应的文本描述
步骤(3)获取义原-义项知识库
首先对步骤(1)中获取的知识图谱数据集中所有关系中的单词进行校对,
然后依托校对后的所有单词和步骤(2)获取的全部三元组描述,利用开源的OpenHowNet网站的API——OpenHowNet,获取校对后的所有单词的义原-义项知识库;
步骤(4)将知识图谱中的关系和三元组描述表示为基于义原的one-hot向量
校对后的关系和三元组描述形式相同,表示为V,V由n个单词wi组成,即
V=[w0,w1,...,wn]
将全部单词wi转换成义原的one-hot向量
V的义原的one-hot向量表示为
步骤(5)构建基于义原-义项的PTransE改进模型,并训练得到每一个实体和关系的向量表示;
步骤(6)基于义原-义项的PTransE的知识图谱关系预测
在步骤(5)训练后,得到了训练集S中每一个实体的向量表示和每一个关系的向量表示,关系预测时,对于一对实体,头实体向量表示为h,尾实体向量表示为t;遍历全部关系计算得分,计算时关系的向量表示为r,即三元组(h,r,t),打分函数如下:



根据打分函数分别计算(h,t)与全部关系r的得分,在计算所有得分之后,将所有(h,r,t)的得分从小到大排名,得分越小排名越高,其中不包括知识图谱数据集正确三元组的前3名为可能成立的三元组。


2.根据权利要求1所述的基于义原-义项信息提升知识图谱关系预测性能的方法,其特征在于:步骤2进一步为,
关于世界知识的知识图谱,通过调用WikipediaAPI从Wikipedia获取相应实体的页面,通过实体名的锚文本、关系和关系的同义词,找到相应三元组的对应描述;
关于领域知识图谱的三元组,根据特定任务,在相应的网站中,通过爬虫进行爬取。


3.根据权利要求1所述的基于义原-义项信息提升知识图谱关系预测性能的方法,其特征在于:
步骤5中所述的改进模型具体如下:
利用步骤(4)得到义原one-hot向量,来计算关系路径对于关系的可靠程度,对PTransE模型进行改进,改进后的优化目标函数为:



以下对目标函数中参数及函数解释:
(1)S为知识图谱数据集中全部三元组的集合,即正确三元组的集合,集合中三元组表示为(h,r,t),头实体向量表示为h,关系向量表示为r,尾实体向量表示为t;对于(h,r,t),从h到t还具有关系路径p,p为从头实体h到中间实体e再到尾实体t的关系路径的向量表示,这里路径p由两跳的关系组成,这两条关系的向量表示分别为r1,r3;
(2)L(h,r,t)是三元组(h,r,t)的合页损失函数,用以使正确三元组和错误三元组的间隔尽可能大;L(p,r)是关系路径p、关系r的二元组合页损失函数,用以使正确二元组和错误二元组的间隔尽可能大;所述的错误三元组指未在S中出现的三元组,错误二元组指将(p,r)中的r替换为h、t之间不存在的关系r′;
(3)L(h,r,t)函数定义:



S-表示错误三元组,...

【专利技术属性】
技术研发人员:赵国帅李童黄剑于海阳杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1