【技术实现步骤摘要】
基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法
[0001]本专利技术属于知识图谱三元组质检领域,具体涉及一种基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法。
技术介绍
[0002]知识图谱的基本存储单元是三元组,三元组由头部实体、关系和尾部实体组成。三元组之间通过关系联系在一起从而构成一张巨大的有向图。DBpedia、NELL等大型知识库均是从多个网站上爬取,清洗制作得到的,其复杂的知识结构往往难以有效的进行质检和分析。制作知识图谱过程中往往会引入一些噪声数据,如虚假的关系,错误的实体,甚至无中生有的三元组。由于制作知识图谱过程各种不可避免引入噪声三元组,这些三元组破坏了知识图谱的网络结构,使得知识难以得到有效的展示,基于知识图谱的知识推荐和搜索会产生致命错误。
[0003]为对知识图谱进行有效质检,Ruobing Xie等人提出的三元组置信度算法,三元组的置信度可在图谱构建前后进行,置信度计算的结果隐含了知识图谱的内部特征和三元组之间的隐含信息。Shengbin J ...
【技术保护点】
【技术特征摘要】
1.一种基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,包括:构建数据集,所述数据集中包括头部和尾部实体间存在直接关系构成的源三元组;根据所述数据集构建头部和尾部实体间存在传递关系构成的隐含三元组;根据所述数据集的源三元组构建噪声三元组;获取所述源三元组、隐含三元组以及噪声三元组的置信度;通过网络模型提取所述源三元组、隐含三元组以及噪声三元组的初始特征、静态特征以及内部关联特征,聚合得到源三元组、隐含三元组以及噪声三元组的融合特征;根据所述源三元组、隐含三元组以及噪声三元组的融合特征,网络模型通过多标签分类算法对实体间关联关系训练将实体不存在关联关系的三元组与实体存在关联关系的三元组进行区分;通过特征建模过程中实体关联关系损失和总损失优化模型参数。2.根据权利要求1所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,根据所述数据集构建头部和尾部实体间存在传递关系构成的含三元组的方法,包括:将所述数据集中实体为搜索起点,搜索以所述实体为起点的最长有向路径,遍历数据集的所有实体,获取各实体的最长有向路径以及各实体的搜索路径;从所述搜索路径中删除被包含的子路径,得到互不包含的所有搜索路径;通过互不包含的所有搜索路径构建实体
‑
关系矩阵E,通过实体
‑
关系矩阵E利用关系传递方向构建隐含三元组,其中所述实体
‑
关系矩阵E由下式表示:其中,sig
i,j
={0,1},D是数据集中不重复实体的数目,sig
i,j
是实体En
i
与En
j
之间的关系,sig
i,j
=0,表示这两个实体之间无关联,sig
i,j
=1,表示这两个实体之间有关联,对于三元组<En
i
,sig
i,j
,En
j
>,实体
‑
关系矩阵E中关系sig
i,j
=1,关系sig
i,j
以及关系sig
i,j
所对应的实体En
i
与En
j
组成的单元组是隐含三元组。3.根据权利要求2所述的基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法,其特征在于,所述获取三元组的置信度中获取隐含三元组的置信度的方法,包括遍历所有搜索路径,通过实体
‑
关系矩阵E还原任意条搜索路径,获取最长搜索路径;以标识最长搜索路径为基准,计算最长搜索路径上各实体三元组置信度矩阵;通过最长搜索路径上各实体三元组置信度矩阵计算构建的隐含三元组的置信度,且每条最长搜索路径之间相互独立;所述置信度由公式(3)表示:
其中,r表示置信度,
←
表示指向方向,F指包含三元组<En
i
,sig
i,j
,En
j
>的最长搜索路径个数,d
k
指当前三元组在当前所属三元组中的搜索深度,p
k
是当前搜索路径总长度,即包含三元组的个数,L是所有最长搜索路径的最大长度,通...
【专利技术属性】
技术研发人员:张思佳,王梓铭,王水涛,毕甜甜,杨景杰,安宗诗,
申请(专利权)人:大连海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。