【技术实现步骤摘要】
一种电子邮件网络的社区结构发现方法及系统
本专利技术涉及Web网络数据挖掘
,特别涉及一种电子邮件网络的社区结构发现方法及系统。
技术介绍
电子邮件是通过使用电子手段进行信息交换的通信方式,它的出现极大地方便了人们之间的沟通与交流,也是目前使用频率较高的一种网络通信方式。电子邮件能够在很大程度上对真实社会中人们的通信关系进行体现,因此由大量电子邮件的发送者和接收者构成的网络是社会网络的组成之一,可以借鉴社会网络分析手段对其进行分析处理。电子邮件网络通常处于内部通信和动态通信的行为模式中,与其他社会网络类似,其中包含着若干社区结构,这些社区结构内部往往存在着密切的通信关系,而不同社区结构之间通信较少。从电子邮件网络动态组织的层级关系结构中快速准确地发现潜在社区结构,可以揭示现实社会的组织和运行模式,使人们更加清楚的了解信息的传播路径和方式,掌握信息的传播规律,进行信息的定向定点投放,以及进行个性化服务推荐,具有重要的研究意义和实用价值。从目前的研究成果和技术应用情况来看,社区发现方法主要分为四种类型:(1)基于层次聚类的社区发现方法,通过度量网络节点间的相似度,进而将相似度较大的节点归为同一社区,将相似度较小的节点置于不同社区,根据其网络节点的聚类规则可分为凝聚式和分裂式两类方法;(2)基于优化模型的社区发现方法,模拟一个物理系统到达均衡状态的过程,定义一个目标函数度量社区划分结果的优劣,在搜索空间中寻找使目标函数取得最优值的划分结果,其中最典型的度量函数是模块度;(3)基于图分割的社区发现方法以及启发式 ...
【技术保护点】
1.一种电子邮件网络的社区结构发现方法,其特征在于,所述方法包括:/n基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;/n对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;/n计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;/n基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;/n基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。/n
【技术特征摘要】
1.一种电子邮件网络的社区结构发现方法,其特征在于,所述方法包括:
基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;
对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;
计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;
基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;
基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。
2.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述基于预设电子邮件数据集进行电子邮件网络拓扑建模,包括:
通过预设电子邮件数据集的电子邮件数据库的接口获取电子邮件记录数据,并从获取的电子邮件记录数据中抽取出预设类型的属性信息;
基于抽取的预设类型的属性信息,对所述电子邮件记录数据进行预处理;
根据预处理后的电子邮件记录数据获取邮件收发关系,并根据邮件收发关系进行电子邮件网络拓扑建模;其中,电子邮件网络中的顶点表示用户,若两个用户之间存在邮件互发关系,则为表示这两个用户的顶点之间建立一条连边。
3.如权利要求2所述的电子邮件网络的社区结构发现方法,其特征在于,所述预设类型的属性信息包括:用户名称、用户邮件地址、邮件ID、邮件名称、邮件发送地址、邮件接收地址、邮件发送时间以及附件信息;
所述对电子邮件记录数据进行预处理包括:清理垃圾邮件、剔除无效账号,并对字符串形式的邮件地址进行编码转换,存储为连续唯一的数值型数据;
所述电子邮件网络的拓扑表示为Net(U,E);
其中,U={u1,u2,…,uM}表示电子邮件网络中的用户构成的集合,M为用户的数量,um表示第m个用户,1≤m≤M;E=(e1,e2,…,eN)表示电子邮件网络中的连边构成的集合,N为电子邮件网络中连边的数量,en表示第n条连边,1≤n≤N;对于任一用户um,将与其具有连边关系的用户构成的集合记做Neim。
4.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果,包括:
社区标签随机初始化步骤,将电子邮件网络中的各用户随机分配到K个社区当中;其中,K表示电子邮件网络中包含的社区数量;
社区标签迭代更新步骤,针对电子邮件网络的所有用户,利用标签传播方法,依次对电子邮件网络中的每一用户的社区标签进行传播更新;其中,每对电子邮件网络中所有用户进行一次社区标签更新,称为一轮迭代,多次执行迭代更新,直到电子邮件网络中所有用户的社区标签取值不再发生变化,将此时电子邮件网络中所有用户的社区标签构成的集合作为一个独立社区发现结果;
对电子邮件网络独立重复执行预设次数的所述社区标签随机初始化步骤和所述社区标签迭代更新步骤,获得预设数量的相互独立的社区发现结果。
5.如权利要求4所述的电子邮件网络的社区结构发现方法,其特征在于,所述对电子邮件网络中的每一用户的社区标签进行传播更新,包括:
对于电子邮件网络中的第m个用户um,选择与um具有连边关系的各用户对应的社区标签中出现频次最高的社区标签对um的社区标签lm进行更新;若同时存在多个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。