The invention discloses a distributed large-scale and complex community detection method and device based on node degree. The implementation steps of the invention include: preparing relational network data; loading relational network data into distributed file system for network segmentation; customizing message transfer function, message fusion function and message processing function based on node degree label propagation algorithm; and then customizing message processing function. Transfer function, message fusion function and message processing function are loaded into the distributed file system; the running parameters of the distributed file system are configured; the distributed file system is invoked to perform community detection and output the results of community detection. The invention is suitable for community detection of large-scale complex network, and has the advantages of high accuracy, good stability, strong parallel computing ability, good universality and adaptability of community detection, simple and efficient development process.
【技术实现步骤摘要】
基于节点度的分布式大规模复杂社团探测方法及装置
本专利技术涉及大规模复杂网络数据挖掘处理领域,具体涉及一种基于节点度的分布式大规模复杂社团探测方法及装置。
技术介绍
复杂网络是对复杂系统抽象表示,现实社会中很多复杂系统可以抽象为网络的形式,如社交网络,交通网络、分子网络等。随着对复杂网络的大量研究,社团结构是这些网络的共有特征,探究复杂网络中社团的特性有助于更好的对复杂系统的功能与结构进行理解与掌握。社团结构是指网络中的顶点可以分成组,组内顶点间的连接比较稠密,组间顶点的连接比较稀疏。目前的社团探测方法可分为基于优化的方法和基于启发式的方法两种。在基于优化的方法中,典型的有谱平分算法,GA(Guimera-Amaral)算法,FN(FastNewman)算法等,它们都是将复杂网络的问题转化为优化目标函数来计算复杂网络的社区结构。基于启发式方法有基于启发式方法有GN(Girvan-Newman)算法、CPM(ClusterPercolationmethod)算法等。这类在优化目标不明确的前提下,设计和运用合理的启发式规则来识别网络社区。Raghavan等人提出了一种 ...
【技术保护点】
1.一种基于节点度的分布式大规模复杂社团探测方法,其特征在于实施步骤包括:1)准备关系网络数据;2)将关系网络数据加载到分布式文件系统进行网络分割,将关系网络划分为多个分区,每一个分区包含一部分顶点以及以其为起点的边;3)基于节点度的标签传播算法定制消息传递函数、消息融合函数和消息处理函数,其中消息传递函数用于每一个节点向其所有的邻居节点发送自己的节点度和标签值且消息发送方向为目的节点;消息融合函数用于每个节点接受到其邻居节点发送的消息后需要按标签值进行聚合等待下一步计算;消息处理函数用于当一个节点处理完接收到的信息后对节点的属性进行更新,如果当前节点的度大于其所有邻居节点 ...
【技术特征摘要】
1.一种基于节点度的分布式大规模复杂社团探测方法,其特征在于实施步骤包括:1)准备关系网络数据;2)将关系网络数据加载到分布式文件系统进行网络分割,将关系网络划分为多个分区,每一个分区包含一部分顶点以及以其为起点的边;3)基于节点度的标签传播算法定制消息传递函数、消息融合函数和消息处理函数,其中消息传递函数用于每一个节点向其所有的邻居节点发送自己的节点度和标签值且消息发送方向为目的节点;消息融合函数用于每个节点接受到其邻居节点发送的消息后需要按标签值进行聚合等待下一步计算;消息处理函数用于当一个节点处理完接收到的信息后对节点的属性进行更新,如果当前节点的度大于其所有邻居节点的度,保持其节点的标签值不变,否则选择数量最多的标签值为当前节点的属性;将消息传递函数、消息融合函数和消息处理函数载入分布式文件系统;4)配置分布式文件系统的运行参数;5)调用分布式文件系统执行社团探测并输出社团探测结果。2.根据权利要求1所述的基于节点度的分布式大规模复杂社团探测方法,其特征在于,步骤1)的详细步骤包括:1.1)采集关系网络数据;1.2)对采集得到的关系网络数据进行数据清洗得到实证网络;1.3)针对实证网络,提取其中的节点集合和边集合,其中节点集合表示被研究的实体对象,边集合表示实体对象之间的关系;1.4)针对提取的节点集合中的网络节点进行编码;1.5)将边集合、编码后的节点集合存储到分布式文件系统。3.根据权利要求1所述的基于节点度的分布式大规模复杂社团探测方法,其特征在于,步骤2)将关系网络划分为多个分区时,具体是指通过分布式文件系统的图并行计算组件将关系网络数据加载到分布式文件系统进行网络分割划分为多个分区。4.根据权利要求3所述的基于节点度的分布式大规模复杂社团探测方法,其特征在于,所述分割划分为多个分区时,针对关系网络每一个顶点,根据函数hash(ID)modN确定其对应的分区的编号,其中hash表示哈希函数,ID为顶点对应节点的唯一身份标识符,hash(ID)为顶点对应节...
【专利技术属性】
技术研发人员:陈彬,董健,艾川,刘亮,张芳,宁丹丹,马亮,李祯,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。