数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32896649 阅读:62 留言:0更新日期:2022-04-07 11:45
本申请公开了一种数据处理方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请通过在图神经网络的调参过程中,确定每个标注节点的冲突水平参数,以衡量每个标注节点的拓扑位置,并在冲突水平参数的基础上,为每个标注节点分配自身的目标权重,将这一目标权重投入到调参过程中,以调节处于不同拓扑位置的不同标注节点各自在调参过程中产生的影响,如为拓扑位置靠近类别中心的标注节点分配较大目标权重,为拓扑位置靠近类别边界的标注节点分类较小权重,从而能够改善由于图神经网络普遍存在的类别不均衡现象,提高图神经网络的识别准确度。识别准确度。识别准确度。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,特别涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,尽管传统的深度学习方法被应用在提取欧式空间数据的特征方面取得了较大的成功,但许多实际应用场景中的数据(例如图数据)是从非欧式空间生成的,因此,图神经网络(Graph Neural Networks,GNN)逐渐成为了一项研究热点。图神经网络是指用于处理图数据的神经网络结构,其中,图数据是指包括节点和边的数据结构,例如,社交网络中的每个账号可对应于图神经网络中的一个节点,当账号A和账号B具有好友关系时,在图神经网络中账号A和账号B各自所对应的节点之间具有一条相连的边。
[0003]图神经网络能够用于处理节点分类任务,即基于各个节点的图数据,能够识别出来每个节点所属的类别,例如,图神经网络能够处理社交网络中的账号分类任务。由于在图神经网络的训练阶段,针对不同类别提供的标注集合中所包含的标注节点的数量是不尽相同的,并且各个标注集合中所包含的标注节点在图神经网络中的位置分布也是不均衡的,导致图神经网络在处理节点分类任务时,针对不同类别的预测能力存在明显差异,例如,针对类别1的识别准确度普遍较高,但针对类别2的识别准确度普遍较低。因此,亟需一种能够提高图神经网络识别准确度的方法。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,能够提高图神经网络的识别准确度。该技术方案如下:
[0005]一方面,提供了一种数据处理方法,该方法包括:
[0006]基于图神经网络中多个标注节点的位置信息,获取所述多个标注节点各自的冲突水平参数,所述冲突水平参数用于表征所述标注节点在对应的标注类别中所处的拓扑位置;
[0007]基于所述多个标注节点各自的冲突水平参数,获取所述多个标注节点各自的目标权重,所述目标权重用于表征基于所述拓扑位置为所述标注节点所引入的加权影响因子;
[0008]基于所述多个标注节点各自的目标权重,调整所述图神经网络的参数,得到目标图神经网络,所述目标图神经网络用于识别所述图神经网络中各个节点所属的类别。
[0009]一方面,提供了一种数据处理装置,该装置包括:
[0010]第一获取模块,用于基于图神经网络中多个标注节点的位置信息,获取所述多个标注节点各自的冲突水平参数,所述冲突水平参数用于表征所述标注节点在对应的标注类别中所处的拓扑位置;
[0011]第二获取模块,用于基于所述多个标注节点各自的冲突水平参数,获取所述多个标注节点各自的目标权重,所述目标权重用于表征基于所述拓扑位置为所述标注节点所引
入的加权影响因子;
[0012]参数调整模块,用于基于所述多个标注节点各自的目标权重,调整所述图神经网络的参数,得到目标图神经网络,所述目标图神经网络用于识别所述图神经网络中各个节点所属的类别。
[0013]在一种可能实施方式中,所述第一获取模块包括:
[0014]随机游走单元,用于对所述多个标注节点中的任一标注节点,从所述标注节点进行随机游走,得到所述标注节点的概率矩阵,所述概率矩阵用于表征所述标注节点在随机游走时停止至所述图神经网络中任一节点的概率分布;
[0015]第一获取单元,用于基于所述标注节点的概率矩阵,获取所述标注节点的冲突期望,所述冲突期望用于表征服从所述概率分布的任一节点在随机游走停止时遇到相异类别的可能性的数学期望,所述相异类别为除了所述标注节点所对应的标注类别之外的类别;
[0016]确定单元,用于将所述标注节点的冲突期望确定为所述标注节点的冲突水平参数。
[0017]在一种可能实施方式中,所述第一获取单元用于:
[0018]对任一所述相异类别所对应的任一目标标注节点,确定从所述目标标注节点开始进行随机游走并停止在服从所述概率分布的任一节点的终止概率;
[0019]将任一所述相异类别中各个目标标注节点的各个终止概率相加,得到第一数值;
[0020]将所述第一数值除以任一所述相异类别所包含的目标标注节点的数量,得到第二数值;
[0021]将各个所述相异类别对应的各个第二数值相加,得到第三数值;
[0022]将服从所述概率分布的各个节点所对应的各个第三数值的数学期望确定为所述标注节点的冲突期望。
[0023]在一种可能实施方式中,在所述图神经网络中包含的节点数量大于数量阈值的情况下,每个标注节点的概率矩阵基于所述图神经网络中的部分节点采样得到。
[0024]在一种可能实施方式中,所述第二获取模块包括:
[0025]第二获取单元,用于对所述多个标注节点中的任一标注节点,获取所述标注节点的余弦退火值,所述余弦退火值用于表征所述标注节点在对应标注类别中冲突水平参数的排序情况;
[0026]第三获取单元,用于基于所述标注节点的余弦退火值、最小权重阈值和最大权重阈值,获取所述标注节点的目标权重。
[0027]在一种可能实施方式中,所述第二获取单元用于:
[0028]确定所述标注节点在对应标注类别中冲突水平参数的排序次序;
[0029]基于所述排序次序和所述标注类别中包含的标注节点的数量,获取所述标注节点的余弦退火值。
[0030]在一种可能实施方式中,所述第三获取单元用于:
[0031]将所述余弦退火值加一,得到第四数值;
[0032]将所述第四数值与所述最大权重阈值与所述最小权重阈值之间的差值相乘,得到第五数值;
[0033]将所述第五数值的二分之一与所述最小权重阈值相加,得到所述标注节点的目标
权重。
[0034]在一种可能实施方式中,所述参数调整模块用于:
[0035]基于所述图神经网络,确定所述多个标注节点中每个标注节点分别对应于多种类别的多个预测概率,所述预测概率用于表征所述标注节点对应于每种类别的可能性;
[0036]基于所述多个标注节点各自的多个预测概率、所述多个标注节点各自的标注类别以及所述多个标注节点各自的目标权重,获取本次迭代的损失函数值;
[0037]响应于所述损失函数值不符合停止条件,迭代调整所述图神经网络的参数,直到所述损失函数值符合所述停止条件,停止迭代,得到所述目标图神经网络。
[0038]在一种可能实施方式中,所述图神经网络中的各个节点对应于社交网络中的各个账号;各个节点所属的类别对应于各个账号所属的账号类别。
[0039]在一种可能实施方式中,所述图神经网络中的各个节点对应于具有引用关系的各个文章;各个节点所属的类别对应于各个文章所属的文章类别。
[0040]一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:基于图神经网络中多个标注节点的位置信息,获取所述多个标注节点各自的冲突水平参数,所述冲突水平参数用于表征所述标注节点在对应的标注类别中所处的拓扑位置;基于所述多个标注节点各自的冲突水平参数,获取所述多个标注节点各自的目标权重,所述目标权重用于表征基于所述拓扑位置为所述标注节点所引入的加权影响因子;基于所述多个标注节点各自的目标权重,调整所述图神经网络的参数,得到目标图神经网络,所述目标图神经网络用于识别所述图神经网络中各个节点所属的类别。2.根据权利要求1所述的方法,其特征在于,所述基于图神经网络中多个标注节点的位置信息,获取所述多个标注节点各自的冲突水平参数包括:对所述多个标注节点中的任一标注节点,从所述标注节点进行随机游走,得到所述标注节点的概率矩阵,所述概率矩阵用于表征所述标注节点在随机游走时停止至所述图神经网络中任一节点的概率分布;基于所述标注节点的概率矩阵,获取所述标注节点的冲突期望,所述冲突期望用于表征服从所述概率分布的任一节点在随机游走停止时遇到相异类别的可能性的数学期望,所述相异类别为除了所述标注节点所对应的标注类别之外的类别;将所述标注节点的冲突期望确定为所述标注节点的冲突水平参数。3.根据权利要求2所述的方法,其特征在于,所述基于所述标注节点的概率矩阵,获取所述标注节点的冲突期望包括:对任一所述相异类别所对应的任一目标标注节点,确定从所述目标标注节点开始进行随机游走并停止在服从所述概率分布的任一节点的终止概率;将任一所述相异类别中各个目标标注节点的各个终止概率相加,得到第一数值;将所述第一数值除以任一所述相异类别所包含的目标标注节点的数量,得到第二数值;将各个所述相异类别对应的各个第二数值相加,得到第三数值;将服从所述概率分布的各个节点所对应的各个第三数值的数学期望确定为所述标注节点的冲突期望。4.根据权利要求2或3所述的方法,其特征在于,在所述图神经网络中包含的节点数量大于数量阈值的情况下,每个标注节点的概率矩阵基于所述图神经网络中的部分节点采样得到。5.根据权利要求1所述的方法,其特征在于,所述基于所述多个标注节点各自的冲突水平参数,获取所述多个标注节点各自的目标权重包括:对所述多个标注节点中的任一标注节点,获取所述标注节点的余弦退火值,所述余弦退火值用于表征所述标注节点在对应标注类别中冲突水平参数的排序情况;基于所述标注节点的余弦退火值、最小权重阈值和最大权重阈值,获取所述标注节点的目标权重。6.根据权利要求5所述的方法,其特征在于,所述获取所述标注节点的余弦退火值包括:确定所述标注节点在对应标注类别中冲突水平参数的排序次序;基于所述排序次序和所述标注类别中包含的标注节点的数量,获取所述标注节点的余
弦退火值。7.根据权利要求5所述的方法,其特征在于,所述基于所述标注节点的余弦退火值、最小权重阈值和最大权重阈值,获取所述标注节点的目标权重包括:将所述余弦退火值加一,得到第四数值;将所述第四数值与所述最大权重阈值与所述最小权重阈值之间的差值相乘,得到第五数值;将所述第五数值的二分之一与所述最小权重...

【专利技术属性】
技术研发人员:陈德里林衍凯赵光香任宣丞李鹏周杰孙栩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1