当前位置: 首页 > 专利查询>中南大学专利>正文

知识嵌入方法技术

技术编号:35742328 阅读:11 留言:0更新日期:2022-11-26 18:46
本申请适用于知识图谱技术领域,提供了一种知识嵌入方法,该方法包括:分别针对知识图谱中的每一三元组执行如下步骤:提取三元组中实体间的聚类特征和层次特征,并利用三元组中(h,c,t)的出现频次和(h,t)的出现频次,对聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征;将聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为三元组的评分值,并对三元组的所有评分值进行加权求和,得到频次增强融合模型;对频次增强融合模型进行训练,并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为知识图谱的知识表示嵌入结果。本申请能提升知识图谱的链接预测准确率。谱的链接预测准确率。谱的链接预测准确率。

【技术实现步骤摘要】
知识嵌入方法


[0001]本申请属于知识图谱
,尤其涉及一种知识嵌入方法。

技术介绍

[0002]2012年谷歌公司正式提出知识图谱的概念,并成功应用于搜索领域,至此之后知识图谱开始被广泛地关注,逐渐成为人工智能领域重要的研究内容,目前在数据挖掘、问答系统等领域有了广泛应用。而知识图谱在各个领域的应用中都包含不可或缺的一步:知识嵌入,即如何将知识转换成数学形式表达,以便于后续任务的推进,因此如何进行有效的知识嵌入是知识图谱应用的关键。
[0003]传统的知识嵌入方法主要是基于独热表示,通过为每一个实体和关系分配独热编码向量,同时设计相应的算法计算实体间的联系从而能够进行推理操作。但是采用独热编码不仅有数据稀疏的问题,而且在大规模知识图谱上,其对内存需求也是巨大的。
[0004]后续的知识表示学习,旨在将实体和关系嵌入到低维向量空间中,该方式不仅极大的节省空间,且数据间的联系可通过向量空间的部分特性(如距离等) 来反应,解决了传统独热编码的数据稀疏问题。
[0005]典型的知识图谱表示学习方法包括以transE为代表的平移模型以及以 rotateE为代表的旋转模型,其中平移模型将关系看作实体间的翻译操作,主要通过向量的加法操作,对头实体进行平移,使得头实体与尾实体间的距离缩小;旋转模型将关系表示成旋转量,即头实体通过关系进行旋转后,与尾实体间的距离缩小。平移模型侧重于提取知识图谱三元组中实体的聚类特征,旋转模型侧重于提取实体的层次特征。
[0006]在大多数知识图谱中聚类和层次两种特征同时存在,但目前在基于聚类特征或者层次特征完成知识嵌入时,知识图谱的链接预测准确率低。

技术实现思路

[0007]本申请实施例提供了一种知识嵌入方法,可以解决知识图谱的链接预测准确率低的问题。
[0008]本申请实施例提供了一种知识嵌入方法,包括:
[0009]分别针对知识图谱中的每一三元组(h,c,t),提取三元组(h,c,t)中实体间的聚类特征和层次特征,并利用三元组(h,c,t)中(h,c,t)的出现频次和(h,t)的出现频次,对聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征;其中,h表示三元组中的头实体,t表示三元组中的尾实体, c表示三元组中的关系;
[0010]分别针对每一三元组(h,c,t),将三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为三元组(h,c,t)的评分值,并对三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;
[0011]分别针对每一三元组(h,c,t),对三元组(h,c,t)对应的频次增强融合模型进行训练,并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为知识图谱的知识表
示嵌入结果;
[0012]实体的嵌入向量组包括实体的聚类特征向量、层次特征向量和频次特征向量,关系的嵌入向量组包括关系的聚类特征向量、关系门控向量、层次特征向量和频次特征向量。
[0013]可选的,提取三元组(h,c,t)中实体间的聚类特征,包括:
[0014]获取三元组对应的头实体h的聚类特征向量三元组对应的尾实体t的聚类特征向量以及三元组对应的关系c的聚类特征向量和关系门控向量
[0015]通过聚类特征提取模型提取三元组中实体间的聚类特征;
[0016]其中,聚类特征提取模型为:
[0017]V
t
表示三元组中实体间的聚类特征。
[0018]可选的,对聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征,包括:
[0019]获取三元组(h,c,t)对应的头实体h的(h,c,t)频次特征向量三元组 (h,c,t)对应的尾实体t的(h,c,t)频次特征向量以及三元组(h,c,t)对应的关系c的(h,c,t)频次特征向量
[0020]构建(h,c,t)频次特征提取模型;(h,c,t)频次特征提取模型为:
[0021]获取三元组(h,c,t)对应的头实体h的(h,t)频次特征向量以及三元组 (h,c,t)对应的尾实体t的(h,t)频次特征向量
[0022]构建(h,t)频次特征提取模型;(h,t)频次特征提取模型为:
[0023]通过公式和公式对三元组 (h,c,t)中实体间的聚类特征V
t
进行频次增强处理,得到频次增强后的聚类特征;和均表示频次增强后的聚类特征;
[0024]通过公式和公式对三元组 (h,c,t)中实体间的层次特征V
r
进行频次增强处理,得到频次增强后的层次特征;和均表示频次增强后的层次特征。
[0025]可选的,将三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为三元组(h,c,t)的评分值,包括:
[0026]通过公式将三元组(h,c,t)对应的聚类特征V
t
、层次特
征V
r
、频次增强后的聚类特征和频次增强后的层次特征和均转换为三元组(h,c,t)的评分值;
[0027]其中,E
k
表示V
k
对应的评分值,k=t,r,f1,f2,f3,f4,[V
k
]i
表示V
k
的第i维向量,N表示V
k
的向量维数,p
k
、q
k
均为敏感系数。
[0028]可选的,对三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型,包括:
[0029]通过公式对三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;
[0030]其中,E1表示频次增强融合模型,λ1、λ2、λ3均为权重系数,β为选择系数。
[0031]可选的,对三元组(h,c,t)对应的频次增强融合模型进行训练,包括:
[0032]将三元组(h,c,t)作为正样本;
[0033]将三元组(h,c,t)中的实体随机替换成其他实体,得到n组负样本;其中, n为整数,且5≤n≤10;
[0034]利用正样本和n组负样本,对频次增强融合模型进行训练,得到训练后的频次增强融合模型。
[0035]可选的,在对三元组(h,c,t)对应的频次增强融合模型进行训练之后,方法还包括:
[0036]根据Bert模型词库中的词汇对三元组(h,c,t)中的实体和关系进行分词处理,对分词处理后的三元组(h,c,t)进行编码,得到三元组(h,c,t)的整体语义信息向量;
[0037]将三元组(h,c,t)的整体语义信息向量输入样本检测神经网络,并将样本检测神经网络输出的概率值作为三元组(h,c,t)的语义特征;
[0038]对训练后的频次增强融合模型和语义特征进行加权求和,得到知识嵌入模型;
[0039]对知识嵌入模型进行训练,并将训练后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识嵌入方法,其特征在于,包括:分别针对知识图谱中的每一三元组(h,c,t),提取所述三元组(h,c,t)中实体间的聚类特征和层次特征,并利用所述三元组(h,c,t)中(h,c,t)的出现频次和(h,t)的出现频次,对所述聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征;其中,h表示所述三元组中的头实体,t表示所述三元组中的尾实体,c表示所述三元组中的关系;分别针对每一所述三元组(h,c,t),将所述三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h,c,t)的评分值,并对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;分别针对每一所述三元组(h,c,t),对所述三元组(h,c,t)对应的所述频次增强融合模型进行训练,并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为所述知识图谱的知识表示嵌入结果;所述实体的嵌入向量组包括所述实体的聚类特征向量、层次特征向量和频次特征向量,所述关系的嵌入向量组包括所述关系的聚类特征向量、关系门控向量、层次特征向量和频次特征向量。2.根据权利要求1所述的方法,其特征在于,所述提取所述三元组(h,c,t)中实体间的聚类特征,包括:获取所述三元组对应的头实体h的聚类特征向量所述三元组对应的尾实体t的聚类特征向量以及所述三元组对应的关系c的聚类特征向量和关系门控向量通过聚类特征提取模型提取所述三元组中实体间的聚类特征;其中,所述聚类特征提取模型为:V
t
表示所述三元组中实体间的聚类特征。3.根据权利要求2所述的方法,其特征在于,所述对所述聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征,包括:获取所述三元组(h,c,t)对应的头实体h的(h,c,t)频次特征向量所述三元组(h,c,t)对应的尾实体t的(h,c,t)频次特征向量以及所述三元组(h,c,t)对应的关系c的(h,c,t)频次特征向量构建(h,c,t)频次特征提取模型;所述(h,c,t)频次特征提取模型为:构建(h,c,t)频次特征提取模型;所述(h,c,t)频次特征提取模型为:获取所述三元组(h,c,t)对应的头实体h的(h,t)频次特征向量以及所述三元组(h,c,t)对应的尾实体t的(h,t)频次特征向量构建(h,t)频次特征提取模型;所述(h,t)频次特征提取模型为:构建(h,t)频次特征提取模型;所述(h,t)频次特征提取模型为:
通过公式和公式对所述三元组(h,c,t)中实体间的聚类特征Vt进行频次增强处理,得到频次增强后的聚类特征;和均表示频次增强后的聚类特征;通过公式和公式对所述三元组(h,c,t)中实体间的层次特征V
r
进行频次增强处理,得到频次增强后的层次特征;和均表示频次增强后的层次特征。4.根据权利要求3所述的方法,其特征在于,所述将所述三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h,c,t)的评分值,包括:通过公式将所述三元组(h,c,t)对应的聚类特征V
t
、层次特征V
r
、频次增强后的聚类特征和频次增强后的层次特征和均转换为所述三元组(h,c,t)的评分值;其中,E
k
表示V
k
对应的评分值,k=t,r,f1,f2,f3,f4,[V
k
]
i
表示V
k
的第i维向量,N表示V
k
的向量维数,p
k
、q
k
均为敏感系数。5.根据权利要求4所述的方法,其特征在于,所述对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型,包括:通过公式对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;其...

【专利技术属性】
技术研发人员:王雅琳彭渝彬郭静宇隋庆开周泽雄林邠李淑贤袁小锋王凯
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1