System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于隐性标签信息增强的医学知识图谱错误检测方法技术_技高网

一种基于隐性标签信息增强的医学知识图谱错误检测方法技术

技术编号:41391999 阅读:3 留言:0更新日期:2024-05-20 19:14
本发明专利技术公开了一种基于隐性标签信息增强的医学知识图谱错误检测方法。本发明专利技术包括以下步骤:首先读取知识图谱G,并以三元组(h,r,t)保存。然后构建基于超图视角重构知识图谱G<subgt;1</subgt;和以三元组为节点重构知识图谱G<subgt;2</subgt;。接着,将G、G<subgt;1</subgt;、G<subgt;2</subgt;输入基于标签信息增强的模型来进行训练。最后利用置信度分数进行评估。本发明专利技术可以基于超图视角挖掘潜在的实体标签信息,并利用该信息进行知识图谱错误检测,使得医学知识图谱错误检测结果更加准确,为医学知识图谱构建和完善提供了可能性。

【技术实现步骤摘要】

本专利技术属于知识图谱中的错误检测领域,具体来说涉及一种基于隐性标签信息增强的医学知识图谱错误检测方法


技术介绍

1、知识图谱(knowledge graphs,kgs)是一种可以对现实世界的事物和其相互关系进行形式化描述,并揭示实体间关系的语义网络。特别地,领域知识图谱,尤其是医学知识图谱(medical knowledge graph)在包括医学问答、决策支持系统等医学领域有着众多的应用。

2、然而,医学知识图谱在构建过程中往往会引入错误。为了减少这些错误,现有的知识图谱错误检测方法会在表示学习的过程中来剔除噪声三元组,例如谢等人发表的ckrl(anovelconfidence-aware knowledge representation learning framework)。特别地,张等人提出的caged方法(contrastive knowledge graph error detection)引入了对比学习(contrastive learning),基于多视图给出三元组的置信度分数。在此基础上,张等人提出了akae(integrating entityattributes for error-aware knowledge graphembedding),该方法额外引入了实体属性进行表示学习,并通过置信度分数进行筛选错误三元组。但由于构建好的医学知识图谱不一定存在完整的实体标签信息,akae存在局限性。

3、基于真实场景,本方法将通过超图视角挖掘隐性的实体标签信息,并将其用于医学知识图谱的错误检测。


技术实现思路

1、有鉴于此,本专利技术提出了一种基于隐性标签信息增强的医学知识图谱错误检测方法。具体步骤包括:

2、s1、获取待检测医学知识图谱g,按照头实体-关系-尾实体的形式将三元组(h,r,t)保存;

3、s2、基于g通过超图视角重构得到超图g1,g1用于挖掘实体标签信息,g1的节点由ht和hh组成;同时,将g的三元组作为节点,共享实体的三元组节点设立关系,重构得到知识图谱g2,g2用于获取邻居信息;

4、s3、将g、g1、g2输入基于标签信息增强的模型来进行训练,所述基于标签信息增强的模型由bi-lstm和带隐性标签信息的图注意力网络组成;

5、s4、构建置信度分数,利用置信度分数值排序来进行检测错误三元组。

6、进一步地,步骤s2包括:

7、s21、对于所有共享(h,r)的三元组(h,r,t1),......,(h,r,tn)∈g,则令ht={ti|(h,r,ti),i∈{1,...,n}},此时,称(h,r)为一组超边,ht为该超边的所有顶点集合;类似的,所有共享(h,r)的三元组(h,r)的三元组(h1,r,t),......,(hk,r,t)∈g,则令hh={hi|(hi,r,t),i∈{1,...,k}},称(r,t)为一组超边,hh为该超边的所有顶点集合,经过该超图视角重构所得到g1;

8、s22、将g中所有的三元组(h,r,t)作为g2的节点,若x1=(h1,r1,t1),x2=(h2,r2,t2),x1和x2为g2中的节点,g2中,若hi=h2或t1=t2或h1=t2或h2=t1,建立x1与x2的关系,经过该重构得到知识图谱为g2。

9、进一步地,步骤s3包括:

10、s31、对g中的三元组进行随机初始化,得到向量(h,r,t);

11、s32、将(h,r,t)输入bi-lstm层,得到三元组向量x;

12、s33、将基于注意力机制挖掘超图视角中的标签信息,对于所得到的三元组(h,r,t)及其向量表示x,根据hh和ht,通过注意力机制得到基于超图视角的三元组重要性分数hyperx,hyperx=sim((h,t),(h′,t′)),其中,sim(·)为相似度函数;

13、其中,其中qt,i=fatt(t,ti)为尾实体t相对于ht中其他实体的系数,类似的,可以得到

14、s34、对于一个x,获取x的邻居三元组x1,x2,…,xm,将其以及得到的hyperx输入进图注意力网络,基于注意力机制得到基于邻居三元组的重构三元组的向量表示z,具体公式如下:

15、

16、其中,邻居三元组xj相对于三元组x的相对系数ej=a(wx,wxj),其中,a为一个注意力评分函数,将向量转换为标量,w表示一个可以训练的矩阵,将三元组向量x映射到同一个空间;

17、s35、通过一个联合损失函数进行负采样训练,l=∑(h,r,t)∈g∑(h′,r′,t′)∈g*[γ+djoint(h,r,t)-djoint(h′,r′,t′)]+,其中,g*表示为负样本集合,g*是通过随机替换头尾实体关系构造得到,(h′,r′,t′)表示g*的三元组,[]+表示取正,γ>0,γ是一个距离超参数,djoint(h,r,t)=||h+r-t||+λ·||x-z||,其中||h+r-t||为transe评分函数,‖x-z‖表示原始三元组x与重构三元组z的距离,λ为一个超参数,通过超参数λ来平衡‖h+r-t‖与‖x-z‖的作用。

18、进一步地,步骤s4包括:

19、s41、训练后得到三元组的置信度分数c(h,r,t)=sigmoid(λ·sim(x,z)-‖h+r-t‖)。sim(·)为相似度函数,置信度分数区间为[0,1],越接近于0则越有可能错误,越接近于1则越有可能正确;

20、s42、根据置信度分数从高到低排序,后5%的三元组为错误三元组。

21、采用作为模型评测的指标。

22、采用上述策略后,本专利技术的积极效果是:

23、(1)可以基于超图视角挖掘潜在的实体标签信息,不需要额外的人工标注;

24、(2)可以利用上述标签信息来增强知识图谱的错误检测,为医学知识图谱的完善提供了一套有效的方法。

本文档来自技高网...

【技术保护点】

1.一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,具体步骤为:

2.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,所述的步骤S2具体包括:

3.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,所述的步骤S3具体包括:

4.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,所述的步骤S4具体包括:

5.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,所述的步骤S1,包括:

【技术特征摘要】

1.一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,具体步骤为:

2.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方法,其特征在于,所述的步骤s2具体包括:

3.根据权利要求1所述的一种基于隐性标签信息增强的医学知识图谱错误检测方...

【专利技术属性】
技术研发人员:叶琪余广涯阮彤翟洁刘井平
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1