【技术实现步骤摘要】
一种基于任意维度超复数嵌入的知识图谱表示方法
[0001]本专利技术涉及一种知识图谱表示方法,具体涉及一种基于任意维度超复数嵌入的知识图谱表示方法。
技术介绍
[0002]知识图谱是三元组的集合,其中每个三元组都包含头实体h、关系r和尾实体t。现有的知识图谱数据集包括Freebase、Yago和WordNet等。知识图谱应用广泛,如知识问答、信息检索、推荐系统和自然语言处理。知识图谱的研究正吸引越来越多的工业界的注意力。知识图谱通常是不完整的,所以知识图谱的一个基本问题是预测缺失的链接。为了促进下游任务的知识应用,许多研究者尝试以可计算的方式对这些数据进行建模,多种知识图谱表示方法应运而生。
[0003]1.知识图谱表示方法
[0004]一般知识图谱表示方法是根据观察到的知识事实来建模和推断知识图谱中的连通模式。例如,有些关系是对称的(比如婚姻),有些关系是反对称的(比如亲子关系);有些关系是相反的(比如上下位词);有些关系是由其他关系组合的(比如,我母亲的丈夫是我的父亲)。从观察到的知识图谱数据集中找到建模并推断这些模式的方法,来预测缺失。许多现有方法一直在尝试对上述一种或几种关系模式进行隐式或显式建模。例如,经典的基于距离的嵌入模型TransE,旨在模拟相反和组合关系;DisMult模型对头实体、关系和尾实体之间的三方交互进行建模,旨在对对称关系进行建模;PairRE模型,能够同时编码复杂关系和多个关系模式,使用两个向量表示关系,将这些向量将对应的头实体和尾实体投影到欧几里德空间,实现投影向量之间 ...
【技术保护点】
【技术特征摘要】
1.一种基于任意维度超复数嵌入的知识图谱表示方法,其特征在于,所述方法包括以下步骤:步骤1、知识图谱数据预处理,将传统知识图谱根据模型需求预处理为结构化数据;步骤2、利用深度学习框架pytorch构造初步嵌入,并构建新的线性层,即超复数嵌入线性层,在图谱上学习实体和关系的向量表示;步骤3、用知识图谱校验集进行校验,调整到最佳网络参数;步骤4、对知识图谱测试集进行测试,统计测试结果,利用MR(Mean Rank),MRR(Mean Reciprocal Ranking),HIT10(链接预测中排名小于10的三元组的平均占比)评价指标对模型进行评估。2.根据权利要求1所述的基于任意维度超复数嵌入的知识图谱表示方法,其特征在于,步骤1具体如下:首先对不同领域的知识图谱进行预处理为五个文件,处理后的文件包括知识图谱三元组训练集,知识图谱三元组验证集,知识图谱三元组测试集,实体ID集合,关系ID集合。3.根据权利要求1所述的基于任意维度超复数嵌入的知识图谱表示方法,其特征在于,步骤2具体如下:首先将步骤1得到的知识图谱中的实体和关系嵌入为初始向量,为接下来的训练做准备,构建超复数嵌入(Hypercomplex Embedding)线性层,即HyperE层,由输入得到n元数的初始嵌入结果I,n为设定元数,I的维度被n整除I=[I1,I2,I3,
…
,I
n
]#(1)I1表示n元数嵌入的实部部分,I
i
,i∈[2,3,
…
,n]表示n元数嵌入的虚部部分,把这n个部分按照给定轴相接构成向量I,作为HyperE层的输入,HyperE层采用与标准平移模型相同的形式:y=HyperE(x)=Ux+b,关键思想是通过Kronecker积的和,将U构造为参数矩阵,其中x为输入的待训练的嵌入向量,b为偏置,得到y为实体或关系的嵌入向量;计算正负样本的得分,并通过得分计算出每一批数据的损失来进行迭代优化。4.根据权利要求2所述的一种基于超复数嵌入的知识图谱嵌入方法,其特征在于,步骤1中所述的预处理操作,操作具体为:将整个知识图谱三元组数据集按照8:1:1随机分割为训练集、验证集和测试集,并输出整个知识图谱的实体对应ID和关系对应ID。5.根据权利要求3所述的一种基于任意维度超复数嵌入的知识图谱表示方法,其特征在于,步骤2中所述的构建超复数线性层HyperE操作,操作具体为:获得知识图谱中的实体嵌入和关系嵌入,对于任意三元组有头实体h,关系r和尾实体t,接下来由HyperE层将实体和关系嵌入转换为高阶嵌入,y=HyperE(x)=Ux+b,通过Kronecker积的方式根据不同的元数构造不同的学习...
【专利技术属性】
技术研发人员:薛一帆,段如冰,伍家松,孔佑勇,杨冠羽,杨淳沨,董志芳,舒华忠,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。