知识图谱嵌入方法、装置、设备及存储介质制造方法及图纸

技术编号:38824725 阅读:11 留言:0更新日期:2023-09-15 20:04
本发明专利技术涉及数字医疗领域的人工智能技术,揭露了一种知识图谱嵌入方法,包括:获取原始知识图谱集合,对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇,基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理,得到替换知识图谱集合,对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合。本发明专利技术还涉及区块链技术,所述标准知识图谱集合可存储在区块链的节点中。本发明专利技术还提出一种知识图谱嵌入装置、电子设备以及可读存储介质。本发明专利技术在医疗实体嵌入知识图谱准确性不高时,可以通过相似性负采样替换处理提高知识图谱嵌入的准确率。知识图谱嵌入的准确率。知识图谱嵌入的准确率。

【技术实现步骤摘要】
知识图谱嵌入方法、装置、设备及存储介质


[0001]本专利技术涉及数字医疗及人工智能
,尤其涉及一种知识图谱嵌入方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着人工智能的发展,现有知识图谱的规模已经相当大,但单个知识图谱的信息仍是不完整的,例如,医疗领域的知识图谱由于实体间的关系密切,有必要对现有知识图谱进行知识嵌入融合,扩充知识图谱的信息量。
[0003]现有技术中,对于医疗知识图谱,通过将知识图谱中实体与关系嵌入到向量空间进行知识图谱融合的方法显示出强大的可行性与鲁棒性。但是以translate模型为代表的知识图谱嵌入技术,在医疗知识图谱嵌入训练时大多是通过删除正例三元组中的头实体或者尾实体,然后从实体集中随机选择一个实体,对删除头实体或尾实体的不完整三元组进行填充,来构造医疗知识图谱的负例三元组,该方法存在以下缺陷:三元组的随意替换填充会使得负例三元组中存在许多低质量的负例三元组(例如正例三元组“高血压

症状

头晕”经过替换可能得到“高血压

症状

脱发”等相关性较低的低质量负例三元组),而低质量的负例三元组将导致知识图谱嵌入模型训练时无法对实体向量与关系向量进行有效的更新,从而影响知识图谱的有效嵌入,降低知识图谱嵌入的准确性。

技术实现思路

[0004]本专利技术提供一种知识图谱嵌入方法、装置、电子设备及可读存储介质,其主要目的在于可以提高知识图谱嵌入的准确率。
[0005]为实现上述目的,本专利技术提供的一种知识图谱嵌入方法,包括:
[0006]获取原始知识图谱集合,对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇;
[0007]基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理,得到替换知识图谱集合;
[0008]对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合。
[0009]可选地,所述对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇,包括:
[0010]利用预设的词向量模型对所述原始知识图谱集合中的三元组进行词向量转化,得到三元组向量;
[0011]对所述三元组向量中的实体向量进行语义聚类处理,得到实体聚类簇。
[0012]可选地,所述基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理,得到替换知识图谱集合,包括:
[0013]依次将所述原始知识图谱集合中的三元组作为目标三元组;
[0014]将与所述目标三元组中目标实体同一实体聚类簇的实体作为负样本,利用所述负样本替换所述目标三元组中的目标实体,得到替换三元组;
[0015]汇总所有替换完成的三元组得到替换知识图谱集合。
[0016]可选地,所述对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合,包括:
[0017]计算所述原始知识图谱集合中三元组的第一分数,以及计算所述替换知识图谱集合中替换三元组的第二分数;
[0018]利用预设的边界损失函数对所述第一分数及所述第二分数进行损失计算,得到边界损失;
[0019]在所述边界损失值大于等于预设损失阈值时,返回所述基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理的步骤,直至所述边界损失值小于预设损失阈值时,停止训练,得到所述标准知识图谱集合。
[0020]可选地,利用下述边界损失函数对所述第一分数及所述第二分数进行损失计算,得到边界损失:
[0021][0022][0023]其中,Loss表示边界损失,(h,r,t)表示原始知识图谱集合T中的三元组,h代表头实体,r代表关系,t代表尾实体,Neg(h,r,t)表示原始知识图谱集合T

中的替换三元组,表示梯度下降,Score(h,t)表示第一分数,Score(h

,t

)表示第二分数,h

表示替换后的头实体,t

表示替换后的尾实体,θ表示预设的边界值。
[0024]可选地,所述对所述三元组向量中的实体向量进行语义聚类处理,得到实体聚类簇,包括:
[0025]从所述三元组向量中随机选取预设个数的实体向量作为聚类中心;
[0026]依次计算所述三元组向量中的每个实体向量到所述聚类中心的距离,并将每个实体向量分到距离最小的聚类中心对应的类别中,得到多个类别簇;
[0027]重新计算每个类别簇的聚类中心,并返回所述依次计算所述三元组向量中的每个实体向量到所述聚类中心的距离的步骤,直至所述多个类别簇的聚类中心收敛,确定收敛的类别簇为实体聚类簇。
[0028]可选地,通过下述公式计算每个类别簇的聚类中心:
[0029][0030]其中,E
i
为第i个聚类中心,C
i
为第i个类别簇,x为类别簇中的实体向量。
[0031]为了解决上述问题,本专利技术还提供一种知识图谱嵌入装置,所述装置包括:
[0032]实体聚类模块,用于获取原始知识图谱集合,对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇;
[0033]负采样替换模块,用于基于所述实体聚类簇对所述原始知识图谱集合中的三元组
进行相似性负采样替换处理,得到替换知识图谱集合;
[0034]知识嵌入模块,用于对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合。
[0035]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0036]存储器,存储至少一个计算机程序;及
[0037]处理器,执行所述存储器中存储的计算机程序以实现上述所述的知识图谱嵌入方法。
[0038]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的知识图谱嵌入方法。
[0039]本专利技术基于对原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇,再通过实体聚类簇对原始知识图谱集合中的三元组进行相似性负采样替换处理,在医疗知识图谱嵌入中,由于同一聚类簇中都是相似语义的医疗实体,因此可以提高替换知识图谱集合中替换三元组的质量,进而提高医疗知识图谱嵌入的准确性。并且通过对替换知识图谱集合及原始知识图谱集合中的三元组进行边界训练,将负样本构建的替换三元组加入到训练过程,进一步提高了知识图谱嵌入的准确性,例如在医疗知识图谱嵌入时,通过语义聚类可以构造高质量的医疗三元组,提高医疗知识图谱嵌入的准确性。因此本专利技术提出的知识图谱嵌入方法、装置、电子设备及计算机可读存储介质,可以提高知识图谱嵌入的准确率。
附图说明
[0040]图1为本专利技术一实施例提供的知本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱嵌入方法,其特征在于,所述方法包括:获取原始知识图谱集合,对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇;基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理,得到替换知识图谱集合;对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合。2.如权利要求1所述的知识图谱嵌入方法,其特征在于,所述对所述原始知识图谱集合中三元组的实体进行语义聚类,得到实体聚类簇,包括:利用预设的词向量模型对所述原始知识图谱集合中的三元组进行词向量转化,得到三元组向量;对所述三元组向量中的实体向量进行语义聚类处理,得到实体聚类簇。3.如权利要求1所述的知识图谱嵌入方法,其特征在于,所述基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理,得到替换知识图谱集合,包括:依次将所述原始知识图谱集合中的三元组作为目标三元组;将与所述目标三元组中目标实体同一实体聚类簇的实体作为负样本,利用所述负样本替换所述目标三元组中的目标实体,得到替换三元组;汇总所有替换完成的三元组得到替换知识图谱集合。4.如权利要求1中所述的知识图谱嵌入方法,其特征在于,所述对所述替换知识图谱集合及所述原始知识图谱集合进行边界训练,得到标准知识图谱集合,包括:计算所述原始知识图谱集合中三元组的第一分数,以及计算所述替换知识图谱集合中替换三元组的第二分数;利用预设的边界损失函数对所述第一分数及所述第二分数进行损失计算,得到边界损失;在所述边界损失值大于等于预设损失阈值时,返回所述基于所述实体聚类簇对所述原始知识图谱集合中的三元组进行相似性负采样替换处理的步骤,直至所述边界损失值小于预设损失阈值时,停止训练,得到所述标准知识图谱集合。5.如权利要求4所述的知识图谱嵌入方法,其特征在于,利用下述边界损失函数对所述第一分数及所述第二分数进行损失计算,得到边界损失:第一分数及所述第二分数进行损失计算,得到边界损失:其中,Loss表示边界损失,(h,r,t)表示原始知识图谱集合T中的三元组,h代表头实体,r代表关系,t代表尾实体,Neg(h,r,t)表示原始知识图谱集合T

【专利技术属性】
技术研发人员:刘羲田巍舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1