基于标签传播算法面向寄递数据的并行化社团发现方法技术

技术编号：12531134 阅读：104 留言：0更新日期：2015-12-18 02:39

本发明专利技术涉及一种基于标签传播算法面向寄递数据的并行化社团发现方法，包括：步骤S1：预处理寄递数据，按照设定格式结构化为文本数据；步骤S2：综合文本数据中节点之间寄递往来信息，标准化节点之间有向边的权值，最终以邻接表形式构建成寄递有向有权关系网络模型；步骤S3：利用改进的标签传播算法，运用MapReduce框架并行化挖掘寄递网络中的社团结构；步骤S4：解析步骤S3获取的社团结构，发现寄递网络中社团。与现有技术相比，本发明专利技术提高传统标签传播算法的扩展性和运行效率，最终实现准确、高效地挖掘寄递网络中社团。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于寄递数据来构建寄递网络的方法，尤其是涉及一种。
技术介绍
社会网络分析的研究起源于20世纪20年代初，侧重于研究社会实体之间的关系，例如:组成员内部的交流，国家之间的贸易，或公司之间的经济交易。随着信息的快速发展，社交网络复杂度越来越大，无论网络管理者还是网络研究人员，都希望对社交网络结构有清晰的认识。社区挖掘对理解社交网络结构有着重要意义，网络社区结构的发现对于网络拓扑结构分析、网络功能性分析以及网络行为预测具有非常重要的理论意义以及实用价值，在社会网及生物网等领域有广泛应用，现已被广泛应用于社交网络、恐怖组织识别等多个领域。首先，基于聚类的社团发现算法往往仅考虑节点的属性信息，导致忽略其它的有用信息(如边的权值)，而且它需要一个预先给定的输入参数(网络中社团的数目)，导致社团划分的准确性不高。其次，考虑到基于标签传递算法不需要任何输入参数，而且具有线性的时间复杂度，收敛速度较快，而且挖掘的精确度也较高，适合于大规模网络中社团挖掘。最后，由于计算机技术和互联网技术的迅猛发展，人们获取数据的能力不断增强，需要分析的网络规模也从原来的几十至几百个结点上升到百万至千万级的规模，导致非分布式算法已不再适用于较大规模网络中社团发现。而Hadoop平台中的MapReduce计算框架十分适合处理大规模数据，因此在社区挖掘算法中引入MapReduce计算框架，利用分布式计算来解决的大规模寄递网络中社团发现，是一个切实可行的方案。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种，，在构建了寄递关系网络模型基础上，...

【技术保护点】
一种基于标签传播算法面向寄递数据的并行化社团发现方法，其特征在于，包括：步骤S1：预处理寄递数据，按照设定格式结构化为文本数据；步骤S2：综合文本数据中节点之间寄递往来信息，标准化节点之间有向边的权值，最终以邻接表形式构建成寄递有向有权关系网络模型；步骤S3：利用改进的标签传播算法，运用MapReduce框架并行化挖掘寄递网络中的社团结构；步骤S4：解析步骤S3获取的社团结构，发现寄递网络中社团。

【技术特征摘要】

【专利技术属性】
技术研发人员：马云龙，刘敏，桂峰，章锋，袁菡，孙源，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人