当前位置: 首页 > 专利查询>山西大学专利>正文

一种电子邮件网络的社区结构发现方法及系统技术方案

技术编号:25809056 阅读:61 留言:0更新日期:2020-09-29 18:43
本发明专利技术公开了一种电子邮件网络的社区结构发现方法及系统,属于Web网络数据挖掘领域,用于解决电子邮件网络中的社区发现问题;该方法包括:基于电子邮件数据集进行电子邮件网络拓扑建模;对电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;计算每一独立社区发现结果的模块度;计算各独立社区发现结果的集成权重;将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。本发明专利技术具有算法结构简单、易于实现,以及执行效率较高的优点,通过对多个独立的社区发现结果进行一致性集成,能够获得稳定性和可靠性较高的电子邮件网络社区发现结果。

【技术实现步骤摘要】
一种电子邮件网络的社区结构发现方法及系统
本专利技术涉及Web网络数据挖掘
,特别涉及一种电子邮件网络的社区结构发现方法及系统。
技术介绍
电子邮件是通过使用电子手段进行信息交换的通信方式,它的出现极大地方便了人们之间的沟通与交流,也是目前使用频率较高的一种网络通信方式。电子邮件能够在很大程度上对真实社会中人们的通信关系进行体现,因此由大量电子邮件的发送者和接收者构成的网络是社会网络的组成之一,可以借鉴社会网络分析手段对其进行分析处理。电子邮件网络通常处于内部通信和动态通信的行为模式中,与其他社会网络类似,其中包含着若干社区结构,这些社区结构内部往往存在着密切的通信关系,而不同社区结构之间通信较少。从电子邮件网络动态组织的层级关系结构中快速准确地发现潜在社区结构,可以揭示现实社会的组织和运行模式,使人们更加清楚的了解信息的传播路径和方式,掌握信息的传播规律,进行信息的定向定点投放,以及进行个性化服务推荐,具有重要的研究意义和实用价值。从目前的研究成果和技术应用情况来看,社区发现方法主要分为四种类型:(1)基于层次聚类的社区发现方法,通过度量网络节点间的相似度,进而将相似度较大的节点归为同一社区,将相似度较小的节点置于不同社区,根据其网络节点的聚类规则可分为凝聚式和分裂式两类方法;(2)基于优化模型的社区发现方法,模拟一个物理系统到达均衡状态的过程,定义一个目标函数度量社区划分结果的优劣,在搜索空间中寻找使目标函数取得最优值的划分结果,其中最典型的度量函数是模块度;(3)基于图分割的社区发现方法以及启发式方法.其基本思想是根据网络Laplacian矩阵的特征向量分量对网络节点间的相似性进行度量,并利用其可以在任意形状样本空间上实现聚类的优点对网络社区进行划分;(4)以直观或经验构造为基础的启发式方法也对社区发现问题的研究产生了积极意义,比较有代表性的方法主要包括标签传播算法、基于距离或吸引力的算法以及群智能算法等。电子邮件网络作为社会网络领域中的重要研究对象之一,具有与社会网络类似的许多特性,同时也存在一些鲜明的特点,例如数据规模巨大、存在无效垃圾邮件、数据类型化等。这些特点对社区发现方法的执行效率和鲁棒性都提出了较高要求,并可能导致传统的社区发现方法在电子邮件网络中难以取得令人满意的效果。因此,为电子邮件网络设计高效可靠的社区发现方法是一个意义重大并且极具挑战的技术问题。
技术实现思路
本专利技术提供了一种电子邮件网络的社区结构发现方法及系统,以解决传统的社区发现方法在电子邮件网络中难以取得令人满意效果的技术问题。为解决上述技术问题,本专利技术提供了如下技术方案:一方面,本专利技术提供了一种电子邮件网络的社区结构发现方法,包括:基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。可选地,所述基于预设电子邮件数据集进行电子邮件网络拓扑建模,包括:通过预设电子邮件数据集的电子邮件数据库的接口获取电子邮件记录数据,并从获取的电子邮件记录数据中抽取出预设类型的属性信息;基于抽取的预设类型的属性信息,对所述电子邮件记录数据进行预处理;根据预处理后的电子邮件记录数据获取邮件收发关系,并根据邮件收发关系进行电子邮件网络拓扑建模;其中,电子邮件网络中的顶点表示用户,若两个用户之间存在邮件互发关系,则为表示这两个用户的顶点之间建立一条连边。可选地,所述预设类型的属性信息包括:用户名称、用户邮件地址、邮件ID、邮件名称、邮件发送地址、邮件接收地址、邮件发送时间以及附件信息;所述对电子邮件记录数据进行预处理包括:清理垃圾邮件、剔除无效账号,并对字符串形式的邮件地址进行编码转换,存储为连续唯一的数值型数据;所述电子邮件网络的拓扑表示为Net(U,E);其中,U={u1,u2,…,uM}表示电子邮件网络中的用户构成的集合,M为用户的数量,um表示第m个用户,1≤m≤M;E=(e1,e2,…,eN)表示电子邮件网络中的连边构成的集合,N为电子邮件网络中连边的数量,en表示第n条连边,1≤n≤N;对于任一用户um,将与其具有连边关系的用户构成的集合记做Neim。可选地,对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果,包括:社区标签随机初始化步骤,将电子邮件网络中的各用户随机分配到K个社区当中;其中,K表示电子邮件网络中包含的社区数量;社区标签迭代更新步骤,针对电子邮件网络的所有用户,利用标签传播方法,依次对电子邮件网络中的每一用户的社区标签进行传播更新;其中,每对电子邮件网络中所有用户进行一次社区标签更新,称为一轮迭代,多次执行迭代更新,直到电子邮件网络中所有用户的社区标签取值不再发生变化,将此时电子邮件网络中所有用户的社区标签构成的集合作为一个独立社区发现结果;对电子邮件网络独立重复执行预设次数的所述社区标签随机初始化步骤和所述社区标签迭代更新步骤,获得预设数量的相互独立的社区发现结果。可选地,对电子邮件网络中的每一用户的社区标签进行传播更新,包括:对于电子邮件网络中的第m个用户um,选择与um具有连边关系的各用户对应的社区标签中出现频次最高的社区标签对um的社区标签lm进行更新;若同时存在多个出现频次最高的社区标签,则从中随机选择一个标签值对lm进行更新。可选地,所述计算每一独立社区发现结果的模块度,包括:对于电子邮件网络第t个独立社区发现结果的模块度,采用下式进行计算:其中,Qt表示电子邮件网络的第t个独立社区发现结果Lt的模块度;1≤i≠j≤M表示电子邮件网络中任意两个不同用户的序号,M为电子邮件网络中用户的数量;A为电子邮件网络的邻接矩阵,其矩阵元素Aij的取值为0或1,表示电子邮件网络中用户ui和uj之间的连边数量;和分别表示用户ui和用户uj的度;和分别表示独立社区发现结果Lt中用户ui和用户uj的社区标签;δ(·)表示阶跃函数,若则否则可选地,所述计算各独立社区发现结果的集成权重,包括:采用下式,计算各独立社区发现结果的集成权重:其中,ωt表示第t个独立社区发现结果Lt的集成权重,Qo表示第o个独立社区发现结果Lo的模块度。可选地,基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果,包括:利用多个独立社区发现结果及其集成权重构建集成关系矩阵S,所述集成关系矩阵S的规模为M×M,本文档来自技高网
...

【技术保护点】
1.一种电子邮件网络的社区结构发现方法,其特征在于,所述方法包括:/n基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;/n对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;/n计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;/n基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;/n基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。/n

【技术特征摘要】
1.一种电子邮件网络的社区结构发现方法,其特征在于,所述方法包括:
基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;
对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;
计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;
基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;
基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。


2.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述基于预设电子邮件数据集进行电子邮件网络拓扑建模,包括:
通过预设电子邮件数据集的电子邮件数据库的接口获取电子邮件记录数据,并从获取的电子邮件记录数据中抽取出预设类型的属性信息;
基于抽取的预设类型的属性信息,对所述电子邮件记录数据进行预处理;
根据预处理后的电子邮件记录数据获取邮件收发关系,并根据邮件收发关系进行电子邮件网络拓扑建模;其中,电子邮件网络中的顶点表示用户,若两个用户之间存在邮件互发关系,则为表示这两个用户的顶点之间建立一条连边。


3.如权利要求2所述的电子邮件网络的社区结构发现方法,其特征在于,所述预设类型的属性信息包括:用户名称、用户邮件地址、邮件ID、邮件名称、邮件发送地址、邮件接收地址、邮件发送时间以及附件信息;
所述对电子邮件记录数据进行预处理包括:清理垃圾邮件、剔除无效账号,并对字符串形式的邮件地址进行编码转换,存储为连续唯一的数值型数据;
所述电子邮件网络的拓扑表示为Net(U,E);
其中,U={u1,u2,…,uM}表示电子邮件网络中的用户构成的集合,M为用户的数量,um表示第m个用户,1≤m≤M;E=(e1,e2,…,eN)表示电子邮件网络中的连边构成的集合,N为电子邮件网络中连边的数量,en表示第n条连边,1≤n≤N;对于任一用户um,将与其具有连边关系的用户构成的集合记做Neim。


4.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果,包括:
社区标签随机初始化步骤,将电子邮件网络中的各用户随机分配到K个社区当中;其中,K表示电子邮件网络中包含的社区数量;
社区标签迭代更新步骤,针对电子邮件网络的所有用户,利用标签传播方法,依次对电子邮件网络中的每一用户的社区标签进行传播更新;其中,每对电子邮件网络中所有用户进行一次社区标签更新,称为一轮迭代,多次执行迭代更新,直到电子邮件网络中所有用户的社区标签取值不再发生变化,将此时电子邮件网络中所有用户的社区标签构成的集合作为一个独立社区发现结果;
对电子邮件网络独立重复执行预设次数的所述社区标签随机初始化步骤和所述社区标签迭代更新步骤,获得预设数量的相互独立的社区发现结果。


5.如权利要求4所述的电子邮件网络的社区结构发现方法,其特征在于,所述对电子邮件网络中的每一用户的社区标签进行传播更新,包括:
对于电子邮件网络中的第m个用户um,选择与um具有连边关系的各用户对应的社区标签中出现频次最高的社区标签对um的社区标签lm进行更新;若同时存在多个...

【专利技术属性】
技术研发人员:杜航原
申请(专利权)人:山西大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1