一种基于改进密度峰值的多粒度社区发现方法技术

技术编号:17706502 阅读:37 留言:0更新日期:2018-04-14 18:59
本发明专利技术请求保护一种基于密度峰值的多粒度社区发现方法,本方法首先对密度峰值聚类算法存在聚类中心难以确定以及归类易出错的缺点进行改进,使其能准确的发现聚类中心。其次,根据密度峰值聚类的中间结果构造全局社区拓扑结构图,在初始的全局社区图上根据定义的粒层分解规则进行粒层由粗到细自动地划分,通过分解机制划分初始全局社区拓扑结构,得到细粒度层次上的多个独立的社区结构,使得问题求解空间由繁到简。最后,在最终形成的最优粒层空间下得到社交网络社区结构的最优划分。本方法从一定程度上揭示了社交网络内部的层次关系,能快速准确地发现网络中具有的稳定层次结构。

【技术实现步骤摘要】
一种基于改进密度峰值的多粒度社区发现方法
本专利技术属于社交网络分析、粒计算以及聚类分析等领域,尤其涉及一种基于改进密度峰值算法融合多粒度思想的社区结构发现方法。
技术介绍
社区结构是网络模块化与异质性的反映,表示真实网络可以看作是由许多不同类型节点组合形成的,如人际关系网络中的朋友圈子、引文网络中针对同一主题的相关论文、新陈代谢或蛋白质网络中的功能子团等等。深入研究网络的社区结构不仅有助于揭示错综复杂的真实网络是怎样由许多相对独立而又互相关联的社区形成的,使人们更好地理解系统不同层次的结构和功能特性,而且具有重要的实用价值。例如,社会网中的社区可用于揭示具有共同兴趣、爱好或社会背景的社会团体;蛋白质网络中的社区结构可用于发现生物系统中功能相关的结构单元;万维网中的社区结构可用于提高网络搜索的性能和准确性,实现信息过滤、热点话题跟踪和网络情报分析等。因此,社区发现是复杂网络领域中的一个非常重要的研究方向。目前,社区发现研究的重点和焦点发生了一些变化,针对当前互联网技术推动下的在线社交网络等社会网络环境中的网络拓扑及社区结构的若干特点,社区发现的研究面临着若干挑战,如:要求探索同时属于多个社区的社区重叠性分析、大型网络局部社区的发现及分析、网络的多模式与多维性、网络节点角色含义的普适性研究、网络动态性分析研究。同时,当前存在的一些社区发现算法存在着这样一些问题,对大规模复杂网络难以处理,社区结构不稳定,要提前给定社区个数的方法存在很大误差,等等。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种得到较为稳定的社区结构、快速发现社交网络中潜在的社区结构的基于改进密度峰值的多粒度社区发现方法。本专利技术的技术方案如下:一种基于改进密度峰值的多粒度社区发现方法,其包括以下步骤:1)、采用改进的密度峰值聚类算法与改进的leadingtree思想,形成包含所有节点的最粗粒度下的大型社区;改进的密度峰值聚类算法改进在:对密度峰值聚类的距离度量公式替换为能代表社交成员间关系的拓扑结构距离;,leadingtree思想主要体现在:将社交的所有节点,通过Leadingtree算法将真实社交网络中复杂的关系简化为联系强烈的从属拓扑结构。2)、根据定义的粒化规则进行粒层的细化,采用分解机制将步骤1)最粗粒度下的大型社区分解为多个规模较小的社区;3)、根据最终社区中心点集FCT进行社区网络粒层的划分,同时进行最优求解粒层的寻优,粒层划分终止即寻优结束后,得到最终的社区结构。进一步的,所述改进后的密度峰值聚类算法进行社交网络节点的聚类处理,得到γ中心点决策图,聚类后形成的引导树代表全局社区拓扑结构图,因为每个成员链接到与其可达且社会重要度比其更大的成员,该全局社区拓扑图视为最粗粒度的问题求解空间。进一步的,步骤1)改进的密度峰值算法具体为:设数据点i,其密度值ρi由以下公式(1)计算:其中dij是节点i与节点j的距离,采用欧式距离来计算二维数据点的距离,dc是截断距离;数据点i的与密度吸引点即密度比它大且相对距离比它更大的点距离计算为公式(2):Is表示数据集其中,将密度峰值算法中距离dij,采用社交网络中成员间的拓扑结构来替换,用节点间的拓扑距离来替代dij,社交网络的拓扑距离如下所示:Γ(i)和Γ(j)分别代表社交网络节点i和节点j的邻接节点集,如果节点i和节点j之间不可达,则dij=∞;若节点i和节点j之间可达,但二者不存在其它公共节点,则dij=1;若节点i和节点j之间可达且存在多个公共节点,则dij<1。进一步的,步骤2)根据定义的粒化规则进行粒层的细化,采用分解机制将步骤1)最粗粒度下的大型社区分解为多个规模较小的社区,具体包括如下步骤:S21:采用冗余法从γ决策图中选择多个中心,构成潜在社区中心集合CT;S22:计算CT中每个中心点引导的聚簇SC;S23:对CT中的每个点,计算SC与从全局引导图T中截去SC剩余部分的相似度;S24:根据具体网络的分布设定阈值thres,进行聚簇间相似程度的控制;S25:从SC中选择相似度小于阈值thres且距离阈值thres最远的中心点作为一个社区中心,加入最终社区中心点集合FCT,同时将改点从CT中移除,令T=T-SC;S26:重复步骤S25,直至到达终止条件:CT中没有潜在中心的相似度小于阈值,完成真实社区中心节点的寻找。进一步的,所述步骤S23计算SC(i)与T-SC(i)的相似度公式为:Similarity(SC,T-SC)=RI(SC,T-SC)*RC(SC,T-SC)α(5)其中,RI(SC,T-SC)表示SC与T-SC的相对互连性,RC(SC,T-SC)表示SC与T-SC的相对近似度,α表示相对互连性与相对近似度之间的重要程度,取值范围为[0,1],α=1表示二者同等重要;其中,EC(SC,T-SC)表示SC与T-SC的绝对互连性,SC与T-SC中相连边的总权重,EC(SC)和EC(T-SC)分别代表SC与T-SC内部的边权重和,表示连接SC与T-SC中相连边的平均权重,和分别表示SC与T-SC做最小截断时的平均权重,|SC|和|T-SC|分别表示SC与T-SC集合的元素个数;进一步的,所述最终社区中心集FCT的计算过程:对于如果similarity(i)<thres,且maximum|similarity(i)-thres|同时满足,则将节点i加入FCT,同时将节点i从CT中移除,将SC(i)从T中移除;循环操作,直至不存在更多的i∈CT使similarity(i)<thres终止,得到最终社区中心集FCT后,根据中心点来对初始全局社区结构图进行划分,依次得到下一层细粒度上的多个小社区结构,可从多个划分粒层中选取适合问题求解的粒层,选择出最优的社区结构划分。本专利技术的优点及有益效果如下:本专利技术提出一种基于改进密度峰值的多粒度社区发现方法,吸收了密度峰值聚类算法的优点,同时改进了密度峰值聚类算法的缺点,采用粒计算以及大范围寻优的思想构建一种任务分解求解机制,采用这种机制进行社交网络社区结构的发现,避免提前给定社区中心个数带来的不确定性问题,同时解决社区中心难以确定的问题,从一定程度上揭示了社交网络内部的层次关系,能快速准确地发现网络中具有的层次结构。具体的本专利技术有以下优点:1、本专利技术能克服DPC聚类中易产生中心点选择失效引发的一系列归类错误问题。2、本专利技术是基于改进密度峰值快速聚类的方法,结合密度峰值聚类算法的优点,能快速发现社交网络中潜在的社区结构。3、本专利技术具有一定的扩展性,本方法提出的基于密度峰值算法和leadingtree思想的判别分解机制可视为一种任务处理的框架,可适用于一类问题的求解。4、本专利技术采用基于粒计算的思想的方法进行社区结构的发现,通过结合粒计算层次结构的思想很好地刻画了社交网络中的社区结构,得到较为稳定的社区结构。5、本专利技术给出的粒化机制能够形成多个粒层上的社区结构分布,每个粒层上的社区结构分布都具有可理解性。附图说明图1是本专利技术的优选实施例的技术框架;图2是本专利技术优选实施例中海豚关系网络真实拓扑结构;图3是本专利技术优选实施例中海豚关系网络的全局社区结构;图4是本专利技术优选实施例中海豚关系网络的社区本文档来自技高网...
一种基于改进密度峰值的多粒度社区发现方法

【技术保护点】
一种基于改进密度峰值的多粒度社区发现方法,其特征在于,包括以下步骤:1)、采用改进的密度峰值聚类算法与leading tree思想,形成包含所有节点的最粗粒度下的大型社区;改进的密度峰值聚类算法改进在:对密度峰值聚类的距离度量公式替换为能代表社交成员间关系的拓扑结构距离;,leading tree思想主要体现在:将社交的所有节点,通过Leading tree算法将真实社交网络中复杂的关系简化为联系强烈的从属拓扑结构;2)、根据定义的粒化规则进行粒层的细化,采用分解机制将步骤1)最粗粒度下的大型社区分解为多个规模较小的社区;3)、根据最终社区中心点集FCT进行社区网络粒层的划分,同时进行最优求解粒层的寻优,粒层划分终止即寻优结束后,得到最终的社区结构。

【技术特征摘要】
1.一种基于改进密度峰值的多粒度社区发现方法,其特征在于,包括以下步骤:1)、采用改进的密度峰值聚类算法与leadingtree思想,形成包含所有节点的最粗粒度下的大型社区;改进的密度峰值聚类算法改进在:对密度峰值聚类的距离度量公式替换为能代表社交成员间关系的拓扑结构距离;,leadingtree思想主要体现在:将社交的所有节点,通过Leadingtree算法将真实社交网络中复杂的关系简化为联系强烈的从属拓扑结构;2)、根据定义的粒化规则进行粒层的细化,采用分解机制将步骤1)最粗粒度下的大型社区分解为多个规模较小的社区;3)、根据最终社区中心点集FCT进行社区网络粒层的划分,同时进行最优求解粒层的寻优,粒层划分终止即寻优结束后,得到最终的社区结构。2.根据权利要求1所述的基于改进密度峰值的多粒度社区发现方法,其特征在于,所述改进后的密度峰值聚类算法进行社交网络节点的聚类处理,得到γ中心点决策图,聚类后形成的引导树代表全局社区拓扑结构图,因为每个成员链接到与其可达且社会重要度比其更大的成员,该全局社区拓扑图视为最粗粒度的问题求解空间。3.根据权利要求1或2所述的基于改进密度峰值的多粒度社区发现方法,其特征在于,步骤1)改进的密度峰值算法具体为:设数据点i,其密度值ρi由以下公式(1)计算:其中dij是节点i与节点j的距离,采用欧式距离来计算二维数据点的距离,dc是截断距离;数据点i的与密度吸引点即密度比它大且相对距离比它更大的点距离计算为公式(2):Is表示数据集其中,将密度峰值算法中距离dij,采用社交网络中成员间的拓扑结构来替换,用节点间的拓扑距离来替代dij,社交网络的拓扑距离如下所示:Γ(i)和Γ(j)分别代表社交网络节点i和节点j的邻接节点集,如果节点i和节点j之间不可达,则dij=∞;若节点i和节点j之间可达,但二者不存在其它公共节点,则dij=1;若节点i和节点j之间可达且存在多个公共节点,则dij<1。4.根据权利要求2所述的基于改进密度峰值的多粒度社区发现方法,其特征在于,步骤2)根据定义的粒化规则进行粒层的细化,采用分解机制将步骤1)最粗粒度下的大型社区分解为多个规模较小的社区,具体包括如下步骤:...

【专利技术属性】
技术研发人员:庞紫玲王国胤杨洁李苑
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1