The invention provides a link prediction method for complex networks, an end-to-end link prediction model based on Graph Attention Network (GAT), and a batch training method for the model. The key of the model is the attention distribution of the learning network node to its neighbors. The steps of training and utilizing the model prediction include: step 1, input the topology structure of the undirected homogeneous network; step 2, sample all nodes according to the topology structure of the training set in order to batch the network; step 3, input the batch training set into the above model to train the model parameters; step 4, input the pairs of points to be predicted. The model outputs the probability that the point pairs are connected. The model of the invention has end-to-end characteristics. The batch training method makes the model applicable to large-scale complex networks.
【技术实现步骤摘要】
一种对复杂网络进行链路预测的方法
本专利技术涉及深度学习与网络科学的交叉领域,具体涉及一种端到端的复杂网络链路预测模型和其分批训练方法。该模型利用注意力机制,结合网络拓扑结构,能表征网络连边。分批训练的方法使得该网络能处理大规模网络的链路预测问题。技术背景大规模的复杂网络普遍存在于现实世界中,例如万维网、航空网络、在线社交网络和蛋白质网络等等。理解,预测和控制这些复杂网络是人类日益迫切的需求。复杂网络的研究属于交叉领域,即有从数学和物理角度的理论研究,也有结合计算机技术的算法研究,是当前科学领域的研究热点之一。一般情况下,复杂网络包含的连边繁多且不易被观察,人们收集的数据中不可避免的存在缺失和错误的连边;另外,限于人力物力,人们只能统计部分连边状况,不能遍历所有连边。链路预测是一种解决问题的技术,该技术使我们能在部分网络结构的基础上预测出隐藏的连边,并发现虚假的连边。在交通网络规划、在线社交、蛋白质功能等许多涉及复杂网络的领域中,链路预测技术都能带来很大的效益。传统的链路预测方法一般将网络各部分看作同质的,不区分各部分对目标节点影响力大小,这不符合实际情况,因而其预测效果也存在一定的瓶颈。
技术实现思路
本专利技术目的在于利用注意力机制,克服上述提出的传统链路预测算法中的缺陷,提出一种基于GAT的端到端链路预测模型。该模型具有可学习的注意力权重,可以对网络不同部分分配不同的注意力大小。具体来说,本模型具有两层注意力模型,能在注意力的指导下聚合节点的一阶、二阶邻居信息,将聚合的信息组合成连边向量,再通过分类器判断该连边存在的概率值。利用训练集中的样本,指导本 ...
【技术保护点】
1.一种对复杂网络进行链路预测的方法,包括模型的构建和其分批训练方法,其特征在于,包括:对网络拓扑结构预处理,得到分批训练数据集;建立基于GAT的端到端链路预测模型;对模型进行分批训练,得出模型参数;利用训练好的模型对连边进行预测,所述模型包含训练好的GAT模型和其后的二分类器模型,其方法具体如下:1).对需要处理的目标网络进行消除方向消除权重处理,得到网络无向无权的同质拓扑结构,该网络不能包含孤立节点;2).上述网络中连边对应的点对作为训练集中的正例,同时随机采集与连边数等量且没有连边的点对,作为训练集中的负例;对正负例中出现的所有点进行固定数目一阶、二阶邻居采样,节点和其邻居看做整体,然后将训练集分批;3).构建基于GAT的端到端链路预测模型,包含以下部分:3.1).模型输入为点对和他们的一阶、二阶邻居,输出为该点对之间有连边的概率;3.2).根据网络数据实际情况,初始化节点向量
【技术特征摘要】
1.一种对复杂网络进行链路预测的方法,包括模型的构建和其分批训练方法,其特征在于,包括:对网络拓扑结构预处理,得到分批训练数据集;建立基于GAT的端到端链路预测模型;对模型进行分批训练,得出模型参数;利用训练好的模型对连边进行预测,所述模型包含训练好的GAT模型和其后的二分类器模型,其方法具体如下:1).对需要处理的目标网络进行消除方向消除权重处理,得到网络无向无权的同质拓扑结构,该网络不能包含孤立节点;2).上述网络中连边对应的点对作为训练集中的正例,同时随机采集与连边数等量且没有连边的点对,作为训练集中的负例;对正负例中出现的所有点进行固定数目一阶、二阶邻居采样,节点和其邻居看做整体,然后将训练集分批;3).构建基于GAT的端到端链路预测模型,包含以下部分:3.1).模型输入为点对和他们的一阶、二阶邻居,输出为该点对之间有连边的概率;3.2).根据网络数据实际情况,初始化节点向量为,其中i为节点下标;3.3).节点向量在初始向量的基础上通过以下两层图注意力模型进行更新,第一层图注意力更新的公式具体为:其中αij表示节点i对节点j的注意力,表示经过第一层GAT后节点的更新向量;节点向量更新的具体做法为,首先根据节...
【专利技术属性】
技术研发人员:谷伟伟,高飞,张江,
申请(专利权)人:北京师范大学,集智学园北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。