知识图谱的对齐方法、电子设备技术

技术编号:38812659 阅读:14 留言:0更新日期:2023-09-15 19:51
本申请提出一种知识图谱的对齐方法、电子设备以及非瞬时性计算机可读存储介质,所述方法包括将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示;根据所述知识图谱中实体、关系和类的向量表示,计算所述多个知识图谱的实体、关系和/或类的相似度。根据本申请的实施例,利用联合对齐模型将知识图谱中的实体、关系和类表示成向量,并通过计算不同知识图谱中实体、关系和类的近似度,从而解决了不同知识图谱的对齐问题。图谱的对齐问题。图谱的对齐问题。

【技术实现步骤摘要】
知识图谱的对齐方法、电子设备


[0001]本申请涉及电子商务领域,具体而言,涉及一种知识图谱的对齐方法、电子设备以及非瞬时性计算机可读存储介质。

技术介绍

[0002]随着电商批发平台用户数量、成交单量的激长和市场竞争的加剧,用户侧对商品有着更加多样化的诉求。因此,对平台商家服务、生产、运营能力等多方面素质产生了更高的要求。
[0003]为了能更好地牵引优质供给的招商引入,提升优质供给渗透,并帮助优质供给商家成长,需要加深对源头工厂商家的认知,形成一个统一规范、覆盖范围广而全的工厂画像体系,以保障优质的、能提供针对性供给的商家能得到快速高效的引入和培育,为平台买家提供更大的价值。
[0004]目前的工厂画像体系,需要从多维度全面刻画工厂信息,包括工厂基础信息、工厂品牌和工厂行业。然而当前工厂图谱中域外工厂Leads信息的完整度较低,工厂画像刻画能力较弱,需要利用外部数据进行信息补充。然而,很多实体使用了不同的ID来描述,需要将这些实体与工厂图谱中的实体进行对齐,才能进行整合。

技术实现思路

[0005]本申请提出了一种知识图谱的对齐方法、电子设备以及非瞬时性计算机可读存储介质,以解决不同知识图谱的数据整合问题。
[0006]根据本申请的一方面,提出一种知识图谱的处理方法,包括:将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示;根据所述知识图谱中实体、关系和类的向量表示,计算所述多个知识图谱的实体、关系和/或类的相似度。
[0007]根据一些实施例,在将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示之前,所述方法还包括:构建所述联合对齐模型,其中,所述联合对齐模型包括所述知识图谱的实体

关系评分函数、实体

类评分函数、实体相似度函数、关系相似度函数和/或类相似度函数;
[0008]其中,所述将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示,包括:利用所述联合对齐模型中的实体

关系评分函数、实体

类评分函数,得到每个所述知识图谱中实体、关系和类的向量表示;
[0009]其中,所述根据所述知识图谱中实体、关系和类的向量表示,计算所述多个知识图谱的实体、关系和/或类的相似度,包括:利用所述联合对齐模型中的实体相似度函数、关系相似度函数和/或类相似度函数,计算所述知识图谱中一对实体、关系或类的相似度。
[0010]根据一些实施例,所述构建所述联合对齐模型,包括:利用Adam优化器迭代训练所述联合对齐模型。
[0011]根据一些实施例,所述利用Adam优化器迭代训练所述联合对齐模型,包括:利用Adam优化器,使用如下式所示的损失函数训练所述联合对齐模型,
[0012][0013]其中,e,e

,e
‘’
为实体向量,r为关系向量,c为类向量,fr(e,r,e

)为所述实体

关系评分函数,f
ec
(e,c)为所述实体

类评分函数,λ
r
和λ
ec
为边界参数,f
r
(e,r,e

)=||e+r

e

||,f
ec
(e,c)=W
c
x

b
c
,f
ec
(e,c)为类的线性空间,W
c
和b
c
为可学习参数,x为变量。
[0014]根据一些实施例,所述实体相似度函数如下式所示:
[0015]S(e,e

)=cos(A
ent
e,e

)
[0016]其中,A
ent
为映射矩阵,所述映射矩阵通过利用Adam优化器,使用如下式所示的损失函数得到,
[0017][0018]其中,exp是指数函数。
[0019]根据一些实施例,在利用Adam优化器迭代训练所述联合对齐模型之前,所述方法还包括:从候选数据集中选择双向仅单一匹配的候选对作为初始训练数据。
[0020]根据一些实施例,所述利用Adam优化器迭代训练所述联合对齐模型,包括:从所述初始训练数据选择未标注样本集;计算所述未标注样本集中每个实体对的推断能力;根据所述推断能力确定训练所述联合对齐模型的样本;利用确定的样本迭代训练所述联合对齐模型;其中,所述推断能力为每个实体对对所述联合匹配模型的整体影响,且所述推断能力如下式所示,D为整体差异函数,d
k
,d

k
为实体向量误差,d
k
=f
r
(e
k
,r
k
,e
k+1
),d

k
=f
r
(e

k
,r

k
,e

k+1
)。
[0021]根据一些实施例,根据所述推断能力确定训练所述联合对齐模型的样本,包括:根据计算的每个实体对的推断能力,计算所述样本的整体效用;根据计算的整体效用确定训练所述联合对齐模型的样本;其中,所述整体效用如下式所示,
[0022][0023][0024]Q为可供选择的实体对集合,Q
+
是Q的子集P为未标注的实体对集合,I(P|Q
+
)为Q
+
的推断能力。
[0025]根据一些实施例,根据计算的每个实体对的推断能力,计算所述样本的整体效用,包括:根据计算的每个实体对的推断能力,计算每个实体对加入训练样本后样本的整体效用的增益;选择计算增益最大的实体对作为训练所述联合对齐模型的样本。
[0026]根据一些实施例,枚举所述未标注样本集中的实体对,计算所述未标注样本集中每个实体对的推断能力,包括:利用图划分的方法,计算所述未标注样本集中每个实体对的推断能力。
[0027]根据一些实施例,所述利用图划分的方法,计算所述未标注样本集中每个实体对的推断能力,包括:计算所述未标注样本集中任意两个实体对的推断能力;根据计算的任意
两个实体对的推断能力进行图划分;搜寻划分的图中可合并的节点并合并,以得到更小的图,以加速计算所述未标注样本集中每个实体对的推断能力。
[0028]根据本申请的一方面,提出一种电子设备,包括:处理单元;以及存储单元,存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行如前任一实施例所述的处理方法。
[0029]根据本申请的一方面,提出一种非瞬时性计算机可读存储介质,其上存储有计算机可读指令,当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的处理方法,其特征在于,包括:将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示;根据所述知识图谱中实体、关系和类的向量表示,计算所述多个知识图谱的实体、关系和/或类的相似度。2.根据权利要求1所述的处理方法,其特征在于,在将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示之前,所述方法还包括:构建所述联合对齐模型,其中,所述联合对齐模型包括所述知识图谱的实体

关系评分函数、实体

类评分函数、实体相似度函数、关系相似度函数和/或类相似度函数;其中,所述将多个知识图谱输入至预设的联合对齐模型,以得到每个所述知识图谱中实体、关系和类的向量表示,包括:利用所述联合对齐模型中的实体

关系评分函数、实体

类评分函数,得到每个所述知识图谱中实体、关系和类的向量表示;其中,所述根据所述知识图谱中实体、关系和类的向量表示,计算所述多个知识图谱的实体、关系和/或类的相似度,包括:利用所述联合对齐模型中的实体相似度函数、关系相似度函数和/或类相似度函数,计算所述知识图谱中一对实体、关系或类的相似度。3.根据权利要求2所述的处理方法,其特征在于,所述构建所述联合对齐模型,包括:利用Adam优化器迭代训练所述联合对齐模型。4.根据权利要求3所述的处理方法,其特征在于,所述利用Adam优化器迭代训练所述联合对齐模型,包括:利用Adam优化器,使用如下式所示的损失函数训练所述联合对齐模型,其中,e,e

,e
‘’
为实体向量,r为关系向量,c为类向量,f
r
(e,r,e

)为所述实体

关系评分函数,f
ec
(e,c)为所述实体

类评分函数,λ
r
和λ
ec
为边界参数,f
r
(e,r,e

)=||e+r

e

||,f
ec
(e,c)=W
c
x

b
c
,f
ec
(e,c)为类的线性空间,W
c
和b
c
为可学习参数,x为变量。5.根据权利要求4所述的处理方法,其特征在于,所述实体相似度函数如下式所示:S(e,e

)=cos(A
ent
e,e

)其中,A
ent
为映射矩阵,所述映射矩阵通过利用Adam优化器,使用如下式所示的损失函数得到,其中,exp是指数函数。6.根据权利要求5所述的处理方法,其特征...

【专利技术属性】
技术研发人员:黄佳程孙泽群林靖豪徐晓舟陈起进齐晓宁任卫军
申请(专利权)人:淘宝中国软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1