当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于聚类的分布式链路预测方法技术

技术编号:12567273 阅读:113 留言:0更新日期:2015-12-23 10:39
本发明专利技术涉及一种基于聚类的分布式链路预测方法,包括:步骤S1:对数据集中各个节点的节点度进行并行处理,得到包含所有节点度的集合;步骤S2:采用聚类算法对数据集进行并行处理,得到聚类后的数据集;步骤S3:根据节点度的集合和RA指标,并行处理获取聚类后的数据集中两两节点之间的预测分数值以及预测结果。与现有技术相比,本发明专利技术结合了聚类算法,提高了链路预测的精确度,同时结合MapReduce分布式计算框架,提高算法的扩展性与时间效率。

【技术实现步骤摘要】

本专利技术设及数据挖掘
,尤其是设及一种基于聚类的分布式链路预测方 法。
技术介绍
数据挖掘是指从大量的数据中通过算法捜索隐藏于数据中的信息的过程。近年 来,由于可供挖掘的数据量越来越庞大,数据挖掘引起了信息产业界的极大关注。链路预 测是指通过已知的网络节点和网络结构等信息预测出网络中尚未产生连边的两个节点之 间存在连接的可能性。预测既包含了对未知链接(网络中实际存在但尚未被我们发现的链 接)的预测,又包含了对未来链接(网络中目前不存在,但未来可能存在的链接)的预测。 链路预测处理的是信息科学中最基本的问题一-缺失信息的还原和预测。 链路预测的方法中比较主流的是基于相似性的链路预测算法,其主要包括=类, 基于节点邻居的相似性、基于极大似然估计W及基于概率模型。而在运几类中,代表性相似 性指标包括基于共同邻居的相似性指标(commonnei曲bor,CN)、基于路径相似性的Katz 指标W及基于全局随机游走的平均通勤时间(averagecommutetime,ACT)指标等等。基 于共同邻居的相似性指标CN由于研究较早,且性能表现良好,常常作为研究中的基准参考 算法。在第一类方法中,由于计算复杂度更低,基于局部信息的方法的效率要高于基于全局 信息的方法。然而,由于信息不充分,基于局部信息的方法预测精度更低。第二类方法假定 了网络结构的组织原则,有详细的规则和能够得到使已观察到的结构的可能性最大化的特 定的参数。从而可W利用运些规则和参数计算出未知链接存在的可能性。第=类方式是应 用机器学习技术。化san等人将链路预测看作一项监督式学习任务,即预测出两个潜在连接 的节点是积极的还是消极的。从作者合作网络中提取出的特征由距离、集聚和拓扑特征组 成。他们用不同的性能指标来比较屯个经典的链路预测算法。由于计算复杂度较高,第二、 =类算法只适合于小规模网络的链路预测。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于聚类的分 布式链路预测方法,结合了聚类算法,提高了链路预测的精确度,同时结合MapRe化ce分布 式计算框架,提高算法的扩展性与时间效率。 阳0化]本专利技术的目的可W通过W下技术方案来实现: ,包括: 步骤S1 :对数据集中各个节点的节点度进行并行处理,得到包含所有节点度的集 合; 步骤S2 :采用聚类算法对数据集进行并行处理,得到聚类后的数据集; 步骤S3 :根据节点度的集合和RA指标,并行处理获取聚类后的数据集中两两节点 之间的预测分数值W及预测结果。 该分布式链路预测方法的各步骤均在MapRe化ce框架下进行并行处理。 所述步骤S2中聚类算法为ROCK聚类算法。 所述ROCK聚类算法具体为: 201:输入数据集及预期得到的簇数k,记初始阶段每个节点为一个簇; 202 :根据数据集的邻接表获取各簇的链接数link,其中,C表示簇,下标i、 j表示簇的编号,link表示两个簇之间的链接数; 阳01引 203 :为每个簇C谨立一个区域堆q,区域堆q山包含每一个link >0 的簇C,,区域堆q山中的簇C,按度量函数g(Ci,C,)的数值降序排列,区域堆q山中排列 第一的簇为区域堆q的最佳簇max(q); 204:建立全局堆Q,全局堆Q包含针对所有簇。的区域堆q,全局堆Q中的区 域堆q按度量函数g(Ci,max(q))的数值降序排列,全局堆Q中排列第一的簇为全局 堆Q的最佳簇max(曲; 205 :每一回合合并区域堆q中的最佳簇和全局堆Q的最佳簇,合并后根据合并 结果更新区域堆和全局堆,当簇数等于k时,结束合并,得到聚类后的数据集。 阳〇1引所述度量函数g(Ci,C,)满足W下公式: 式中,n郝n,分别为簇C1和簇C,中的节点个数,f( 0 )为设定值;))满足W下公式:阳〇2;3]式中,邮为簇max (q)中的节点个数。 所述步骤S3具体为:301 :输入聚类后的数据集G(V,巧的邻接表,得到节点的邻居集r,其中,G(V,巧为一个无权无向网络,V表示节点集,E表示边集; 302 :从r 中选取任意不同的两个邻居节点,按照节点ID的大小给全部邻居节 点排序,得到两两点对之间的共同邻居;303 :根据公;获取两两节点之间的预测分数值S\y并输出预测结 果,其中,氏指节点X与节点y的共同邻居节点Z的节点度,而Com' xy则是指节点X与节点y的共同邻居集。 在步骤S1之间,将数据集划分为训练集和测试集,训练集经步骤S1、步骤S2和步 骤S3处理后得到预测结果,利用测试集和AUC验证该预测结果的有效性。 所述利用测试集和AUC验证该预测结果的有效性具体为: 1)由两两节点之间的预测分数值取出测试集中所有边的预测分数值和边集补集 中所有边的预测分数值,所述边集补集为不存在的边的集合; 2)分别从测试集和边集补集中随机选取一条边进行预测分数值比较,获取AUC的 值,并根据AUC验证该预测结果的有效性。 与现有技术相比,本专利技术具有W下优点: 1)在进行链路之前先对数据集进行聚类,创新地利用聚类提高了链路预测的精确 度,同时聚类过程中,进行堆与堆之间的合并时,同一时间内对所有堆的大小进行比较可W 运用分布式进行处理,用不同的设备建立代号不同的堆,需要合并时可W按照键值对的值 进行处理,能够大大缩减时间。 2)基于MapRe化ce对该链路预测算法实现了并行化,利用将网络划分为W每个节 点为中屯、的局部子图进行计算,大大提高了方法的效率。 3)ROCK(RobustClusteringusinglinKs)聚类算法是一种鲁棒的用于分类属性 的聚类算法,该算法属于凝聚型的层次聚类算法。之所W鲁棒是因为在确认两对象(样本 点/簇)之间的关系时,考虑了他们共同的邻居(相似样本点)的数量,在算法中被叫做链 接化ink)的概念。而其他聚类算法只关注对象之间的相似度,ROCK聚类算法更适合用于 大规模复杂网络中大小不一的聚类。 4)划分测试集,增加对预测结果的验证,从而保证预测结果的精度和可靠性。【附图说明】 图1为MapRe化ce处理数据集的过程图; 图2为本专利技术并行化方案的整体流程图。【具体实施方式】 下面结合附图和具体实施例对本专利技术进行详细说明。本实施例W本专利技术技术方案 为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于 下述的实施例。 如图 1 所示,在化doop平台的皿FS化adoopDistributedFileSystem)中, MapRe化ce通过划分的步骤,将海量数据分组并将其的处理分配给主节点下的各个分节点 共同完成,最后整合各个分节点的计算结果得到最终结果。MapRe化ce将整个数据处理过 程抽象为两个部分,用函数表示,分别为Map和Re化ce。Map的工作是将任务分解成多个 (即Splitn,n为0, 1, 2...),而Re化ce则负责汇总多任务处理的结果(即Partn,n为 0, 1,2…)。MapRe化ce框架下的数据集必须可W分解成多个小数据集,并且可W被并行化 处理。其中,MapRe化ce的数据是文本,按行计算的。 如图2所示,一种各步骤均在MapRe化ce框架下并行化处理的、基于聚类的分布式 链路预测方法包括本文档来自技高网
...

【技术保护点】
一种基于聚类的分布式链路预测方法,其特征在于,包括:步骤S1:对数据集中各个节点的节点度进行并行处理,得到包含所有节点度的集合;步骤S2:采用聚类算法对数据集进行并行处理,得到聚类后的数据集;步骤S3:根据节点度的集合和RA指标,并行处理获取聚类后的数据集中两两节点之间的预测分数值以及预测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:马云龙刘敏袁菡章锋桂峰孙源
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1