一种基于聚类的分布式链路预测方法技术

技术编号：12567273 阅读：113 留言：0更新日期：2015-12-23 10:39

本发明专利技术涉及一种基于聚类的分布式链路预测方法，包括：步骤S1：对数据集中各个节点的节点度进行并行处理，得到包含所有节点度的集合；步骤S2：采用聚类算法对数据集进行并行处理，得到聚类后的数据集；步骤S3：根据节点度的集合和RA指标，并行处理获取聚类后的数据集中两两节点之间的预测分数值以及预测结果。与现有技术相比，本发明专利技术结合了聚类算法，提高了链路预测的精确度，同时结合MapReduce分布式计算框架，提高算法的扩展性与时间效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及数据挖掘
，尤其是设及一种基于聚类的分布式链路预测方法。
技术介绍
数据挖掘是指从大量的数据中通过算法捜索隐藏于数据中的信息的过程。近年来，由于可供挖掘的数据量越来越庞大，数据挖掘引起了信息产业界的极大关注。链路预测是指通过已知的网络节点和网络结构等信息预测出网络中尚未产生连边的两个节点之间存在连接的可能性。预测既包含了对未知链接（网络中实际存在但尚未被我们发现的链接）的预测，又包含了对未来链接（网络中目前不存在，但未来可能存在的链接）的预测。链路预测处理的是信息科学中最基本的问题一-缺失信息的还原和预测。链路预测的方法中比较主流的是基于相似性的链路预测算法，其主要包括=类，基于节点邻居的相似性、基于极大似然估计W及基于概率模型。而在运几类中，代表性相似性指标包括基于共同邻居的相似性指标（commonnei曲bor，CN)、基于路径相似性的Katz 指标W及基于全局随机游走的平均通勤时间（averagecommutetime,ACT)指标等等。基于共同邻居的相似性指标CN由于研究较早，且性能表现良好，常常作为研究中的基准参考算法。在第一类方法中，由于计算复杂度更低，基于局部信息的方法的效率要高于基于全局信息的方法。然而，由于信息不充分，基于局部信息的方法预测精度更低。第二类方法假定了网络结构的组织原则，有详细的规则和能够得到使已观察到的结构的可能性最大化的特定的参数。从而可W利用运些规则和参数计算出未知链接存在的可能性。第=类方式是应用机器学习技术。化san等人将链路预测看作一项监督式学习任务...

【技术保护点】
一种基于聚类的分布式链路预测方法，其特征在于，包括：步骤S1：对数据集中各个节点的节点度进行并行处理，得到包含所有节点度的集合；步骤S2：采用聚类算法对数据集进行并行处理，得到聚类后的数据集；步骤S3：根据节点度的集合和RA指标，并行处理获取聚类后的数据集中两两节点之间的预测分数值以及预测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：马云龙，刘敏，袁菡，章锋，桂峰，孙源，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人