一种基于对比学习的图谱节点表征方法技术

技术编号:36435489 阅读:12 留言:0更新日期:2023-01-20 22:49
本申请涉及电数字数据处理技术领域,特别是涉及一种基于对比学习的图谱节点表征方法。所述方法包括以下步骤:S100,获取GraphSage网络的初始样本集;S200,获取GraphSage网络的新增样本集,所述新增样本集包括新增正样本集S

【技术实现步骤摘要】
一种基于对比学习的图谱节点表征方法


[0001]本专利技术涉及电数字数据处理
,特别是涉及一种基于对比学习的图谱节点表征方法。

技术介绍

[0002]在知识图谱的常见任务中,节点向量表征是一项基础任务,目前有较多的方法可以得到节点向量表征,比如利用GraphSage网络进行节点向量表征。GraphSage网络有两种训练方式,第一种是有监督训练方式,其利用人工标注或者业务定义的方法得到一批有监督样本,利用对有监督数据的相关任务(如节点分类,关系预测等)训练得到节点在任务网络中的中间表现作为节点的向量表征;第二种是无监督训练方式,其通过无监督的聚类方法,将一个节点的特征和周围特征进行聚合计算,逐跳传递得到最终的向量表示。
[0003]由于监督样本的获取成本高,可获取的监督样本的数量较少,因此,上述第一种训练方式训练得到的GraphSage网络在节点向量表征上容易存在准确性不足;上述第二种训练方式通过节点的特征和周围特征计算节点的向量表征,在向量表征的准确性上也有所不足。而且根据上述第一种训练方式和第二种训练方式获取的向量空间的空间对齐性和均匀度较差。

技术实现思路

[0004]本专利技术目的在于,提供一种基于对比学习的图谱节点表征方法,提高了图谱节点向量表征的准确性。
[0005]根据本专利技术,提供了一种基于对比学习的图谱节点表征方法,包括以下步骤:
[0006]S100,获取GraphSage网络的初始样本集,所述初始样本集包括初始正样本集和初始负样本集,所述初始正样本集为预设图谱的邻居节点对的集合,所述初始负样本集为预设图谱的非邻居节点对的集合;所述预设图谱包括M个节点。
[0007]S200,获取GraphSage网络的新增样本集,所述新增样本集包括新增正样本集S
+
和新增负样本集S

,S
+
={(node1,node
+1
),(node2,node
+2
),

,(node
M
,node
+M
)},(node
i
,node
+i
)}为第i个新增正样本,node
i
为预设图谱的第i个节点,i的取值范围为1到M,node
+i
为node
i
对应的语义相关节点;S

={(node1,node
‑1),(node2,node
‑2),

,(node
M
,node

M
)},(node
i
,node

i
)}为第i个新增负样本,node

i
为node
i
对应的非邻居节点。
[0008]S300,利用所述初始样本集和所述新增样本集对GraphSage网络进行训练,GraphSage网络采用的损失函数Loss(total)=Loss(sage)+Loss(simcse),其中Loss(sage)为GraphSage网络的原有损失函数,Loss(simcse)为新增的对比损失函数,其中,sim()为求相似度,τ为温度超参数,为GraphSage网络最后一次随机丢弃后输出的node
i
的向量表征,
为GraphSage网络最后一次随机丢弃后输出的node
+i
的向量表征,为GraphSage网络最后一次随机丢弃后输出的node
+j
的向量表征,node
+j
为node
j
对应的语义相关节点;为GraphSage网络最后一次随机丢弃后输出的node

j
的向量表征,node

j
为node
j
对应的非邻居节点,node
j
为预设图谱的第j个节点。
[0009]S400,将目标图谱节点输入至经训练的GraphSage网络,将经训练的GraphSage网络最后一层的输出作为目标图谱节点的向量表征。
[0010]本专利技术与现有技术相比具有明显的有益效果,借由上述技术方案,本专利技术提供的基于对比学习的图谱节点表征方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
[0011]本专利技术无需对现有Graphsage网络的结构做更改,只需通过对比学习思想添加新的训练样本及更改Graphsage网络的损失函数,基于新增的训练样本和更改后的损失函数,本专利技术提高了图谱节点向量表征的准确性。而且,本专利技术基于对比学习思想构建的训练样本实现了对Graphsage网络的对比训练,提高了获取的向量空间的空间对齐性和均匀度。
附图说明
[0012]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术实施例提供的基于对比学习的图谱节点表征方法的流程图;
[0014]图2为现有GraphSage网络的核心数据流转过程示意图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]根据本专利技术,提供了一种基于对比学习的图谱节点表征方法,如图1所示,包括以下步骤:
[0017]S100,获取GraphSage网络的初始样本集,所述初始样本集包括初始正样本集和初始负样本集,所述初始正样本集为预设图谱的邻居节点对的集合,所述初始负样本集为预设图谱的非邻居节点对的集合;所述预设图谱包括M个节点。
[0018]应当理解的是,预设图谱为预先构建的图谱,其包括M个节点和若干条边。邻居节点指的是传输距离在预设传输范围内的节点,也即一跳能够达到的节点。非邻居节点指的是传输距离在预设传输范围外的节点,也即一跳不能够达到的节点。邻居节点对指的是互为邻居节点的两节点,非邻居节点对指的是不互为邻居节点的两节点。
[0019]S200,获取GraphSage网络的新增样本集,所述新增样本集包括新增正样本集S
+
和新增负样本集S

,S
+
={(node1,node
+1
),(node2,node
+2
),

,(node
M
,node
+M
)},(no本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的图谱节点表征方法,其特征在于,包括以下步骤:S100,获取GraphSage网络的初始样本集,所述初始样本集包括初始正样本集和初始负样本集,所述初始正样本集为预设图谱的邻居节点对的集合,所述初始负样本集为预设图谱的非邻居节点对的集合;所述预设图谱包括M个节点;S200,获取GraphSage网络的新增样本集,所述新增样本集包括新增正样本集S
+
和新增负样本集S

,S
+
={(node1,node
+1
),(node2,node
+2
),

,(node
M
,node
+M
)},(node
i
,node
+i
)}为第i个新增正样本,node
i
为预设图谱的第i个节点,i的取值范围为1到M,node
+i
为node
i
对应的语义相关节点;S

={(node1,node
‑1),(node2,node
‑2),

,(node
M
,node

M
)},(node
i
,node

i
)}为第i个新增负样本,node

i
为node
i
对应的非邻居节点;S300,利用所述初始样本集和所述新增样本集对GraphSage网络进行训练,GraphSage网络采用的损失函数Loss(total)=Loss(sage)+Loss(simcse),其中Loss(sage)为GraphSage网络的原有损失函数,Loss(simcse)为新增的对比损失函数,其中,sim()为求相似度,τ为温度超参数,为GraphSage网络最后一次随机丢弃后输出的node
i
的向量表征,为GraphSage网络最后一次随机丢弃后输出的node
+i
的向量表征,为GraphSage网络最后一次随机丢弃后输出的node
+j
的向量表征,node
+j
为node<...

【专利技术属性】
技术研发人员:胡茂海尹光荣王艳飞
申请(专利权)人:和美深圳信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利