图结构数据中的目标节点分类方法、系统、设备及介质技术方案

技术编号:36709316 阅读:14 留言:0更新日期:2023-03-01 09:35
本发明专利技术公开了一种图结构数据中的目标节点分类方法、系统、设备及介质,对图结构数据中目标节点的分类任务转化为对目标节点对应的子图的分类任务,通过选择目标节点的固定阶邻居节点为目标节点生成嵌入的子图表示,然后使用强化学习方法在给定的搜索空间内搜索最优的子图以及最优的图神经网络结构来对子图进行分类,不仅充分地利用了节点的特征信息和图的部分结构信息,从而有利于提升节点分类准确率,还可以减少设计图神经网络模型的工作量,通过得到的最优的图神经网络,也可以保证节点分类准确率。分类准确率。分类准确率。

【技术实现步骤摘要】
图结构数据中的目标节点分类方法、系统、设备及介质


[0001]本专利技术涉及图结构数据中的目标节点分类
,尤其涉及一种图结构数据中的目标节点分类方法、系统、设备及介质。

技术介绍

[0002]图结构作为一种能够有效建模一组对象(节点)以及对象之间各种错综复杂的关系(边)的数据结构,因其具有强大的表达能力而在现实世界中得到了广泛应用。概括地说主要可以分为两个方面,一方面现实世界中的许多系统都可以表示为图或网络的形式,例如电力网络系统,通信网络系统,WWW万维网等等;另一方面许多真实世界中的数据都可以用图结构的形式进行组织和存储,如Facebook、Twitter、Weibo等社交网络数据,生物大分子、PPI等生物信息数据,淘宝、京东、亚马逊等电商网络数据。
[0003]图结构数据中的节点分类是一类非常重要的任务,通常来说,给定图结构数据上部分节点的标签,目标是为图结构数据中其他没有标签的节点预测一个标签,节点的标签类别通常和具体的应用场景有关。例如,在预测金融网络中的恶意欺诈用户时,节点的标签可以表示该用户是恶意用户或者不是恶意用户。
[0004]目前从不同的角度考虑已经提出了为数众多的节点分类方法,包括:1)使用传统的机器学习算法,如KNN(邻近算法)、SVM(支持向量机)、LR(线性回归)等,通过利用节点的原始特征信息,经过判别器为节点预测标签,将节点区分开来。2)从图结构数据上的随机游走出发,借鉴自然语言处理中重要的WordEmbedding方法Word2Vec,通过捕捉图结构数据中节点的共现关系为节点生成嵌入向量表示,然后根据节点的嵌入向量表示为节点预测标签从而进行节点分类。3)通过改进随机游走的策略,使得能够灵活地调节更多地捕捉图中节点的同质性还是更多地捕捉图中节点的结构性,进而为节点生成嵌入向量用于预测标签和分类。4)在图结构数据上定义一阶相似度和二阶相似度,在为节点生成嵌入向量表示时最大程度地保留这两种相似度,利用得到的节点嵌入向量来进行分类。5)基于消息传递机制定义图卷积神经网络,通过聚合邻居节点的特征,然后根据这些得到的特征进行节点分类。6)在图卷积神经网络的基础之上引入注意力机制,通过考虑不同邻居节点对当前节点的影响力不同,对邻居节点的特征进行加权求和得到嵌入向量表示用于节点分类。
[0005]上述提到的方法也存在一些问题:1)没有充分地利用图结构数据中的节点特征信息和图的结构信息,导致节点分类准确率并不高。2)设计适合具体任务的最优网络结构通常需要大量的先验知识,否则难以得到最优的网络结构,进而影响节点分类准确率。

技术实现思路

[0006]本专利技术的目的是提供一种图结构数据中的目标节点分类方法、系统、设备及介质,通过强化学习方法搜索最优的子图构建方式以及用于子图分类的图神经网络架构,从而不需要大量的先验知识就可以得到最优的设计细节,大大减少了设计网络结构花费的时间和精力,并且,还能够提升节点分类的准确率。
[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]一种图结构数据中的目标节点分类方法,包括:
[0009]获取包含节点集与边集构成的图结构数据;
[0010]对于待分类的目标节点集合,按照设定的固定阶数以每一目标节点为中心在所述图结构数据中抽取相应固定阶数的邻居节点构建子图,形成待分类的目标节点集合对应的初始子图集合;
[0011]利用强化学习方法结合初始子图集合,在状态空间中搜索最优策略,获得每一目标节点对应的最优阶数与图神经网络的最优层数,所述状态空间中的每一状态均利用单个子图中所有节点特征确定;
[0012]对于每一目标节点,按照对应的最优阶数以相应目标节点为中心在所述图结构数据中抽取相应最优阶数的邻居节点构建最优子图,并利用通过训练的相应最优层数的图神经网络,获得描述最优子图特征的向量表示,并进行分类,获得每一目标节点的类别。
[0013]一种图结构数据中的目标节点分类系统,包括:
[0014]数据获取单元,用于获取包含节点集与边集构成的图结构数据;
[0015]子图初始化单元,用于对于待分类的目标节点集合,按照设定的固定阶数以每一目标节点为中心在所述图结构数据中抽取相应固定阶数的邻居节点构建子图,形成待分类的目标节点集合对应的初始子图集合;
[0016]最优策略搜索单元,用于利用强化学习方法结合初始子图集合,在状态空间中搜索最优策略,获得每一目标节点对应的最优阶数与图神经网络的最优层数,所述状态空间中的每一状态均利用单个子图中所有节点特征确定;
[0017]节点分类单元,用于对于每一目标节点,按照对应的最优阶数以相应目标节点为中心在所述图结构数据中抽取相应最优阶数的邻居节点构建最优子图,并利用通过训练的相应最优层数的图神经网络,获得描述最优子图特征的向量表示,并进行分类,获得每一目标节点的类别。
[0018]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0019]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0020]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0021]由上述本专利技术提供的技术方案可以看出,对图结构数据中目标节点的分类任务转化为对目标节点对应的子图的分类任务,通过选择目标节点的固定阶邻居节点为目标节点生成嵌入的子图表示,然后使用强化学习方法在给定的搜索空间内搜索最优的子图以及最优的图神经网络结构来对子图进行分类,不仅充分地利用了节点的特征信息和图的部分结构信息,从而有利于提升节点分类准确率,还可以减少设计图神经网络模型的工作量,通过得到的最优的图神经网络,也可以保证节点分类准确率。
附图说明
[0022]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本
领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0023]图1为本专利技术实施例提供的一种图结构数据中的目标节点分类方法的总体流程图;
[0024]图2为本专利技术实施例提供的一种图结构数据中的目标节点分类方法的模型结构示意图;
[0025]图3为本专利技术实施例提供的一种图结构数据中的目标节点分类方法的基本流程图;
[0026]图4为本专利技术实施例提供的一种图结构数据中的目标节点分类系统的示意图;
[0027]图5为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0028]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0029]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图结构数据中的目标节点分类方法,其特征在于,包括:获取包含节点集与边集构成的图结构数据;对于待分类的目标节点集合,按照设定的固定阶数以每一目标节点为中心在所述图结构数据中抽取相应固定阶数的邻居节点构建子图,形成待分类的目标节点集合对应的初始子图集合;利用强化学习方法结合初始子图集合,在状态空间中搜索最优策略,获得每一目标节点对应的最优阶数与图神经网络的最优层数,所述状态空间中的每一状态均利用单个子图中所有节点特征确定;对于每一目标节点,按照对应的最优阶数以相应目标节点为中心在所述图结构数据中抽取相应最优阶数的邻居节点构建最优子图,并利用通过训练的相应最优层数的图神经网络,获得描述最优子图特征的向量表示,并进行分类,获得每一目标节点的类别。2.根据权利要求1所述的一种图结构数据中的目标节点分类方法,其特征在于,所述图结构数据中每一节点特征均为根据节点信息提取的特征向量,所述节点信息包括:节点的文本信息和/或图像信息。3.根据权利要求1所述的一种图结构数据中的目标节点分类方法,其特征在于,所述利用强化学习方法结合初始子图集合,在状态空间中搜索最优策略,获得对应的最优阶数与图神经网络的最优层数包括:利用初始子图集合中所有子图的初始表示向量作为输入,使用强化学习方法训练智能体以获得最优决策,也即确定目标节点对应的最优子图阶数与图神经网络的最优层数;训练过程如下:初始时间步长时随机选择一个子图,以其初始表示向量作为初始时间步长时的状态,之后,均由上一时间步长对应子图与其他子图的连接关系计算转移概率,按照转移概率确定下一时间步长时对应子图,并以对应子图的初始的子图表示向量作为下一时间步长的状态;当前时间步长的状态下,从动作空间选择不同动作,通过执行不同动作后获得相应的奖励反馈并计算对应状态动作值,再结合策略函数选出最终动作,结合当前时间步长的状态、最终动作、奖励值与下一时间步长的状态形成当前时间步长的记录数据;使用多个时间步长的记录数据训练所述智能体,直至收敛,完成智能体的训练;其中,每一动作包含用于选择阶数值的子动作,以及用于选择图神经网络的层数值的子动作;同时,每个时间步中,基于最终动作确定相应的阶数与层数,并在图结构数据中以相应时间步对应的目标节点为中心抽取相应阶数的新的子图,再将新的子图和对应的层数存入缓存中,利用新的子图对相应层数的图神经网络进行训练,并应用于后续奖励反馈计算过程中。4.根据权利要求3所述的一种图结构数据中的目标节点分类方法,其特征在于,最终动作选择方式为:当前时间步长t中的每一动作a
t
由二元子动作组成,通过执行第一个子动作获得阶数的值,通过执行第二个子动作获得图神经网络的层数的值,从给定的动作空间中选择不同的子动作与子动作在当前时间步长的状态下分别执行后,根据当前时间步长t对应子图的分类准确率确定每一动作的奖励反馈,并结合给定的下一时间步长t+1至最大时间步长T的累积状态动作值,确定当前时间步长t下执行每一动作后获得的
状态动作值,通过策略函数判断当前时间步长t是否满足设定条件,若满足,则随机选择一个动作作为当前时间步长t的最终动作,若不满足,则选择最大状态动作值...

【专利技术属性】
技术研发人员:崔凯杨英光周鹏远廖勇
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1