【技术实现步骤摘要】
一种基于粗化与局部重叠模块度的邮件挖掘方法
本专利技术涉及大规模邮件网络上的重叠群组发现
,特别是一种基于粗化与局部重叠模块度的邮件挖掘方法。
技术介绍
随着技术的飞速发展,电子邮件成为了生活及工作中必不可少的工具。作为社交网络的重要通讯手段之一,其往来记录中隐含着错综复杂的社交关系。对邮件往来网络中的群组结构进行分析,能够更好地帮助研究人员挖掘邮件收发人之间的共同兴趣、职业等等,从而可以进行圈子推荐、好友推荐、精准广告投放以及定位可疑人群等。目前邮件挖掘相关研究及技术仍不太成熟,人们根据邮件中的不同数据进行不同的研究,如使用时间、邮件源地址等对系统做宏观统计,使用邮件正文对邮件进行分类,使用邮件收发关系的结构发现邮件群组和重要人物等。其中,关于利用邮件收发关系的结构发现邮件群组和重要人物的已有研究存在效率不高的问题,很难满足海量邮件信息处理的要求,并且大多数邮件挖掘系统需要结合多方面的数据,但由于邮件涉及个人隐私问题,收集的邮件语料库规模有限,所以对真实大规模邮件网络的挖掘还比较少,很难保证邮件群组识别的准确性。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于粗化与局部重叠模块度的邮件挖掘方法,可以高效、准确地对复杂网络的重叠结构进行划分。本专利技术采用以下方案实现:一种基于粗化与局部重叠模块度的邮件挖掘方法,提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来 ...
【技术保护点】
1.一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或 ...
【技术特征摘要】
1.一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或1;将距离为1的边切断,经过断边处理后,图结构中构成连通分支的节点属于同一群组,得到粗化图的群组划分Ccn;步骤S4:所述反粗化模块根据节点映射关系,将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中,得到所述邮件往来网络G上的初始群组划分C;步骤S5:所述重叠邮件群组划分模块,利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现;根据节点标签变化所引起的局部重叠模块度增量大小,对距离为1的边所对应的节点进行群组归属判断,得到重叠群组集合Cover;步骤S6:所述群组优化模块根据群组与群组间的紧密度,将所述重叠群组集合Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,得到最终的重叠群组集合C';步骤S7:所述输出模块输出最终邮件往来网络的群组划分结果C'。2.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S2具体包括以下步骤:步骤S21:读取邮件往来网络G=(V,E,W);步骤S22:将所述邮件往来网络中的节点按度大小升序排序,将序列记为Lst;步骤S23:针对每个节点v,初始化其标志位v.F=-1;步骤S24:从Lst中依次取出每个节点v;寻找由节点v构成的三角形;当构成三角形的三个顶点的标志位均小于2且其余两个节点的度小于v的度时,将三个节点粗化成一个复合节点vcm,即用一个复合节点vcm代替三角形的三个顶点;原先与三个顶点相连的边改为与vcm相连,并合并两点间的重复边及边权;步骤S25:当遍历完Lst中的所有节点后,即完成一层粗化,利用式(1)求出该层粗化的粗化率;ratecoar=(|Gm|-|Gm-1|)/|G|(1)其中,Gm-1存储该层粗化前的图结构信息;Gm中存储粗化后的图结构信息;步骤S26:若ratecoar大于给定阈值,所述阈值范围为[0,1],则重复步骤S21至S25;否则将Gm-1中的图结构信息存储至粗化后的图Gcn=(V',E')中。3.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S3具体包括以下步骤:步骤S3...
【专利技术属性】
技术研发人员:郭昆,张鹏,郭文忠,陈羽中,项冰洁,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。