【技术实现步骤摘要】
知识嵌入方法
[0001]本申请属于知识图谱
,尤其涉及一种知识嵌入方法。
技术介绍
[0002]2012年谷歌公司正式提出知识图谱的概念,并成功应用于搜索领域,至此之后知识图谱开始被广泛地关注,逐渐成为人工智能领域重要的研究内容,目前在数据挖掘、问答系统等领域有了广泛应用。而知识图谱在各个领域的应用中都包含不可或缺的一步:知识嵌入,即如何将知识转换成数学形式表达,以便于后续任务的推进,因此如何进行有效的知识嵌入是知识图谱应用的关键。
[0003]传统的知识嵌入方法主要是基于独热表示,通过为每一个实体和关系分配独热编码向量,同时设计相应的算法计算实体间的联系从而能够进行推理操作。但是采用独热编码不仅有数据稀疏的问题,而且在大规模知识图谱上,其对内存需求也是巨大的。
[0004]后续的知识表示学习,旨在将实体和关系嵌入到低维向量空间中,该方式不仅极大的节省空间,且数据间的联系可通过向量空间的部分特性(如距离等) 来反应,解决了传统独热编码的数据稀疏问题。
[0005]典型的知识图谱表示学习方法包括以transE为代表的平移模型以及以 rotateE为代表的旋转模型,其中平移模型将关系看作实体间的翻译操作,主要通过向量的加法操作,对头实体进行平移,使得头实体与尾实体间的距离缩小;旋转模型将关系表示成旋转量,即头实体通过关系进行旋转后,与尾实体间的距离缩小。平移模型侧重于提取知识图谱三元组中实体的聚类特征,旋转模型侧重于提取实体的层次特征。
[0006]在大多数知识图谱中聚类和层次两种 ...
【技术保护点】
【技术特征摘要】
1.一种知识嵌入方法,其特征在于,包括:分别针对知识图谱中的每一三元组(h,c,t),提取所述三元组(h,c,t)中实体间的聚类特征和层次特征,并利用所述三元组(h,c,t)中(h,c,t)的出现频次和(h,t)的出现频次,对所述聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征;其中,h表示所述三元组中的头实体,t表示所述三元组中的尾实体,c表示所述三元组中的关系;分别针对每一所述三元组(h,c,t),将所述三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h,c,t)的评分值,并对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;分别针对每一所述三元组(h,c,t),对所述三元组(h,c,t)对应的所述频次增强融合模型进行训练,并将训练后的频次增强融合模型中的实体和关系的嵌入向量组作为所述知识图谱的知识表示嵌入结果;所述实体的嵌入向量组包括所述实体的聚类特征向量、层次特征向量和频次特征向量,所述关系的嵌入向量组包括所述关系的聚类特征向量、关系门控向量、层次特征向量和频次特征向量。2.根据权利要求1所述的方法,其特征在于,所述提取所述三元组(h,c,t)中实体间的聚类特征,包括:获取所述三元组对应的头实体h的聚类特征向量所述三元组对应的尾实体t的聚类特征向量以及所述三元组对应的关系c的聚类特征向量和关系门控向量通过聚类特征提取模型提取所述三元组中实体间的聚类特征;其中,所述聚类特征提取模型为:V
t
表示所述三元组中实体间的聚类特征。3.根据权利要求2所述的方法,其特征在于,所述对所述聚类特征和层次特征进行频次增强处理,得到频次增强后的聚类特征和层次特征,包括:获取所述三元组(h,c,t)对应的头实体h的(h,c,t)频次特征向量所述三元组(h,c,t)对应的尾实体t的(h,c,t)频次特征向量以及所述三元组(h,c,t)对应的关系c的(h,c,t)频次特征向量构建(h,c,t)频次特征提取模型;所述(h,c,t)频次特征提取模型为:构建(h,c,t)频次特征提取模型;所述(h,c,t)频次特征提取模型为:获取所述三元组(h,c,t)对应的头实体h的(h,t)频次特征向量以及所述三元组(h,c,t)对应的尾实体t的(h,t)频次特征向量构建(h,t)频次特征提取模型;所述(h,t)频次特征提取模型为:构建(h,t)频次特征提取模型;所述(h,t)频次特征提取模型为:
通过公式和公式对所述三元组(h,c,t)中实体间的聚类特征Vt进行频次增强处理,得到频次增强后的聚类特征;和均表示频次增强后的聚类特征;通过公式和公式对所述三元组(h,c,t)中实体间的层次特征V
r
进行频次增强处理,得到频次增强后的层次特征;和均表示频次增强后的层次特征。4.根据权利要求3所述的方法,其特征在于,所述将所述三元组(h,c,t)对应的聚类特征、层次特征、频次增强后的聚类特征和层次特征均转换为所述三元组(h,c,t)的评分值,包括:通过公式将所述三元组(h,c,t)对应的聚类特征V
t
、层次特征V
r
、频次增强后的聚类特征和频次增强后的层次特征和均转换为所述三元组(h,c,t)的评分值;其中,E
k
表示V
k
对应的评分值,k=t,r,f1,f2,f3,f4,[V
k
]
i
表示V
k
的第i维向量,N表示V
k
的向量维数,p
k
、q
k
均为敏感系数。5.根据权利要求4所述的方法,其特征在于,所述对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型,包括:通过公式对所述三元组(h,c,t)的所有评分值进行加权求和,得到频次增强融合模型;其...
【专利技术属性】
技术研发人员:王雅琳,彭渝彬,郭静宇,隋庆开,周泽雄,林邠,李淑贤,袁小锋,王凯,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。