一种基于对比学习的图谱节点表征方法技术

技术编号：36435489 阅读：12 留言：0更新日期：2023-01-20 22:49

本申请涉及电数字数据处理技术领域，特别是涉及一种基于对比学习的图谱节点表征方法。所述方法包括以下步骤：S100，获取GraphSage网络的初始样本集；S200，获取GraphSage网络的新增样本集，所述新增样本集包括新增正样本集S

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的图谱节点表征方法

[0001]本专利技术涉及电数字数据处理
，特别是涉及一种基于对比学习的图谱节点表征方法。

技术介绍

[0002]在知识图谱的常见任务中，节点向量表征是一项基础任务，目前有较多的方法可以得到节点向量表征，比如利用GraphSage网络进行节点向量表征。GraphSage网络有两种训练方式，第一种是有监督训练方式，其利用人工标注或者业务定义的方法得到一批有监督样本，利用对有监督数据的相关任务(如节点分类，关系预测等)训练得到节点在任务网络中的中间表现作为节点的向量表征；第二种是无监督训练方式，其通过无监督的聚类方法，将一个节点的特征和周围特征进行聚合计算，逐跳传递得到最终的向量表示。
[0003]由于监督样本的获取成本高，可获取的监督样本的数量较少，因此，上述第一种训练方式训练得到的GraphSage网络在节点向量表征上容易存在准确性不足；上述第二种训练方式通过节点的特征和周围特征计算节点的向量表征，在向量表征的准确性上也有所不足。而且根据上述第一种训练方式和第二种训练方式获取的向量空间的空间对齐性和均匀度较差。

技术实现思路

[0004]本专利技术目的在于，提供一种基于对比学习的图谱节点表征方法，提高了图谱节点向量表征的准确性。
[0005]根据本专利技术，提供了一种基于对比学习的图谱节点表征方法，包括以下步骤：
[0006]S100，获取GraphSage网络的初始样本集，所述初始样本集包括初始正样本集和初始负样本集，所述初始正样本集...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的图谱节点表征方法，其特征在于，包括以下步骤：S100，获取GraphSage网络的初始样本集，所述初始样本集包括初始正样本集和初始负样本集，所述初始正样本集为预设图谱的邻居节点对的集合，所述初始负样本集为预设图谱的非邻居节点对的集合；所述预设图谱包括M个节点；S200，获取GraphSage网络的新增样本集，所述新增样本集包括新增正样本集S
+
和新增负样本集S
‑
，S
+
＝{(node1,node
+1
),(node2,node
+2
),
…
,(node
M
,node
+M
)}，(node
i
,node
+i
)}为第i个新增正样本，node
i
为预设图谱的第i个节点，i的取值范围为1到M，node
+i
为node
i
对应的语义相关节点；S
‑
＝{(node1,node
‑1),(node2,node
‑2),
…
,(node
M
,node
‑
M
)}，(node
i
,node
‑
i
)}为第i个新增负样本，node
‑
i
为node
i
对应的非邻居节点；S300，利用所述初始样本集和所述新增样本集对GraphSage网络进行训练，GraphSage网络采用的损失函数Loss(total)＝Loss(sage)+Loss(simcse)，其中Loss(sage)为GraphSage网络的原有损失函数，Loss(simcse)为新增的对比损失函数，其中，sim()为求相似度，τ为温度超参数，为GraphSage网络最后一次随机丢弃后输出的node
i
的向量表征，为GraphSage网络最后一次随机丢弃后输出的node
+i
的向量表征，为GraphSage网络最后一次随机丢弃后输出的node
+j
的向量表征，node
+j
为node<...

【专利技术属性】
技术研发人员：胡茂海，尹光荣，王艳飞，
申请(专利权)人：和美深圳信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人