System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据增强的图神经网络不平衡分类方法及系统技术方案_技高网

一种基于数据增强的图神经网络不平衡分类方法及系统技术方案

技术编号:40508787 阅读:6 留言:0更新日期:2024-03-01 13:24
本发明专利技术涉及机器学习领域,特别涉及一种基于数据增强的图神经网络不平衡节点分类方法及系统包括,利用输入的图数据结构中的标记节点集训练图神经网络分类器为图数据中的未标记节点生成伪标签;基于相似度的选择模块来识别与少数节点最相似的未标记节点,从中筛选出候选的类节点集;利用强化学习模块自适应地选择可靠的节点,得到类节点的补充集;通过去除类间边和部分类内边来切割无用信息的传播路径。采样过程中利用大量的未标记的节点来补充少数类,有效地对信息丰富和可靠的未标记节点进行采样,以增强少数类的多样性,通过去除类间边和部分类内边来切割无用信息的传播路径,进一步提高了少数类节点的识别精度,在更深层模型中出现的过度平滑。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,特别涉及一种基于数据增强的图神经网络不平衡节点分类方法及系统。


技术介绍

1、图作为描述节点与节点之间关系的数据结构,常常被用来表示复杂的数据关系,例如基因表达调控网络、论文引用网络以及自然语言处理中的文本分类、文本回答等。图的节点分类问题是分析图型结构数据的重要任务之一。在实际应用中,由于采样偏差以及一些客观因素,有些类别的标注数据比较多,有些类别的标注数据比较少,这就使得少数类样本的识别准确率远低于多数类样本的识别准确率。因此,在不平衡数据背景下,提升传统分类算法的性能以及实际应用具有重要的现实意义。作为图形学习的一个重要研究课题,节点分类的性能随着一些新方法的提出而不断提升,其中,图神经网络已经取得了最先进的节点分类性能。然而,现有的基于gnn的方法主要解决的是节点样本平衡分布的分类问题。可是,许多真实的应用场景下图数据通常具有高度倾斜的类分布,即多数类占据大部分样本,而少数类只包含极少数的样本。当节点呈现出不平衡的类分布时,现有的gnn方法会倾向于多数类而对少数类的表示不足。

2、在传统的机器学习里,国内外的研究学者从三个层面对不平衡数据分类问题提出来大量的优秀算法。数据预处理层面上,针对数据稀少问题,通过改变训练集样本分布,降低或消除不平衡性。特征层面上,选择具有较好区分性能的特征,提高少数类的识别率。算法层面上,根据传统分类算法在解决不平衡问题时的缺陷,结合不平衡数据的特点,适当地改进算法以提高对少数类样本的识别率。然而,无论是基于数据的还是基于算法的方法仍然仅仅依赖于那些标记的训练数据,因此,由于广泛重用一些样本或提高一些样本的权重,会存在过拟合问题。实际上,图数据很自然地呈现出节点的拓扑结构,可以用来生成一些虚拟节点作为训练算法的数据增强。一些基于图神经网络的分类模型在嵌入空间中插值两个少数节点来合成新样本,并利用边缘预测器来确定合成样本的邻域;或通过混合一些现有的少数节点,合成新的少数节点和它们的邻居节点。但是,那些在少数节点与其他节点之间主观设计的混合比下生成的合成节点,可能无法揭示底层数据性质的真实情况,因此,如果不正确设置混合比,可能产生不利的结果。因此,基于基于数据增强的图神经网络改善分布不平衡节点的分类效果,尤其是提高少数类样本的识别精度具有重要意义。


技术实现思路

1、鉴于上述现有技术中存在的问题,提出了本专利技术。

2、因此,本专利技术提供一种基于数据增强的图神经网络不平衡节点分类方法,利用基于相似度的选择模块和强化学习模块从未标记节点中筛选出少数类节点的补充集合实现数据增强,缓解类不平衡问题。同时,修改拓扑结构,通过去除类间边和部分类内边来切割无用信息的传播路径,进一步增强数据集并缓解过平滑现象,从而提升不平衡数据的分类效果。

3、为解决上述技术问题,本专利技术提供如下技术方案,一种基于数据增强的图神经网络不平衡分类方法,包括:利用输入的图数据结构中的标记节点集训练图神经网络分类器为图数据中的未标记节点生成伪标签;设计基于相似度的选择模块来识别与少数节点最相似的未标记节点,从中筛选出候选的类节点集;利用强化学习模块自适应地选择可靠的节点,得到类节点的补充集;修改拓扑结构,通过去除类间边和部分类内边来切割无用信息的传播路径;利用增强的数据集训练神经网络,训练类平衡的节点分类器。

4、作为本专利技术所述的一种基于数据增强的图神经网络不平衡分类方法的一种优选方案,其中:所述图神经网络分类器包括,

5、

6、其中,agg(·)表示聚合邻域n(v)信息的聚合函数,cat(·)连接节点表示和邻域信息,w为可学习的权值参数,σ为非线性激活函数,表示节点v与k阶邻居的学习表示,

7、

8、利用zv表示分类器g获得的节点v的嵌入。

9、作为本专利技术所述的一种基于数据增强的图神经网络不平衡分类方法的一种优选方案,其中:所述筛选出候选的类节点集包括,根据所标记的节点,将潜在空间中每个少数类的中心计算为:

10、

11、其中ci是类i的标记节点集;

12、模块从被预测为少数类节点的未标记节点中选择离中心cen(i)最近的前k个节点作为候选集合vc:

13、

14、其中mi为被预测为少数类节点的未标记节点,d(·,·)测量嵌入空间的相似性;

15、采用欧氏距离作为测量,

16、d(u,v)=||zu-zv||

17、其中,表示vc和cen(i)中的节点的最远距离,

18、

19、作为本专利技术所述的一种基于数据增强的图神经网络不平衡分类方法的一种优选方案,其中:所述强化学习模块包括state模块,action模块,environment模块,reward模块。

20、作为本专利技术所述的一种基于数据增强的图神经网络不平衡分类方法的一种优选方案,其中:所述state模块包括定义环境的状态st编码中间训练集vt和未标记节点ut的信息,使用vt中节点嵌入的和来表示vt的信息,即利用ut的嵌入表示其信息,对于时间步长t,状态st被定义为v0=vl是不平衡的标记集,u0是vc中的第一个节点;

21、所述action模块包括at用于决定当前vc中未标记的节点ut在时间t时是否应包含在当前训练集vt中,特别是在at∈{0,1}处,at=1时表示选择节点ut来补充不平衡的训练集,而在at=0处表示ut不适用,所述动作由一个策略函数πθ生成,将状态作为输入,并由θ参数化,策略网络表示行动的概率分布,并被指定为具有非线性激活函数的多层感知器,表示为,

22、at=p(at|st)=πθ(st)=mlpθ(st)。

23、作为本专利技术所述的一种基于数据增强的图神经网络不平衡分类方法的一种优选方案,其中:所述environment模块包括在执行at后,环境的状态应更改为st+1,在工作中,state由vt和ut组成,在执行at后,

24、

25、

26、所述reward模块包括,训练一个基于{vt∪ut}的分类器,并在一个小的平衡验证集上评估其准确性,准确性总是非负的,直接应用作为奖励会阻碍代理的收敛;

27、奖励模块表示为若添加ut可以提高分类器的性能,则分配正奖励,否则则分配负奖励,奖励功能的设计为:

28、

29、其中,bt表示基础奖励,即过去10个精度的平均值,即bt=mean{acct-11,...,acct-1},acc0表示由标记节点集vl训练的初始分类器的准确性;

30、用近端策略优化更新策略网络的参数θ,ppo的目标函数定义为:

31、

32、其中pt(θ)是概率比,值被限制在[1-ε,1+ε]范围内,使保守策略迭代目标的下限和代理的探索更加稳定,是涉及折扣累积奖励和价值函数vπ的估计优势函数。

33、作为本专利技术所述的一种本文档来自技高网...

【技术保护点】

1.一种基于数据增强的图神经网络不平衡分类方法,其特征在于:包括,

2.如权利要求1所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述图神经网络分类器包括,

3.如权利要求2所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述筛选出候选的类节点集包括,根据所标记的节点,将潜在空间中每个少数类的中心计算为:

4.如权利要求3所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述强化学习模块包括state模块,action模块,environment模块,reward模块。

5.如权利要求4所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述state模块包括定义环境的状态st编码中间训练集Vt和未标记节点ut的信息,使用Vt中节点嵌入的和来表示Vt的信息,利用ut的嵌入表示其信息,对于时间步长t,状态st被定义为,V0=VL是不平衡的标记集,u0是VC中的第一个节点;

6.如权利要求5所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述environment模块包括在执行at后,环境的状态应更改为st+1,在工作中,state由Vt和ut组成,在执行at后,

7.如权利要求6所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述通过去除类间边和部分类内边来切割无用信息的传播路径包括类间策略和类内策略;

8.一种基于权利要求1-7任一所述的一种基于数据增强的图神经网络不平衡分类方法的系统,其特征在于:包括,伪标签生成模块,相似度筛选模块,强化学习选取模块、拓扑结构调整模块、平衡分类训练模块;

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于数据增强的图神经网络不平衡分类方法,其特征在于:包括,

2.如权利要求1所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述图神经网络分类器包括,

3.如权利要求2所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述筛选出候选的类节点集包括,根据所标记的节点,将潜在空间中每个少数类的中心计算为:

4.如权利要求3所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述强化学习模块包括state模块,action模块,environment模块,reward模块。

5.如权利要求4所述的一种基于数据增强的图神经网络不平衡分类方法,其特征在于:所述state模块包括定义环境的状态st编码中间训练集vt和未标记节点ut的信息,使用vt中节点嵌入的和来表示vt的信息,利用ut的嵌入表示其信息,对于时间步长t,状态st被定义为,v0=vl是不平衡的标记集,u0是vc中的第一个节点;

6...

【专利技术属性】
技术研发人员:白享恩安静王克铸王子健
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1