当前位置: 首页 > 专利查询>深圳大学专利>正文

一种重叠社区集合质量度量指标的计算方法及装置制造方法及图纸

技术编号:19594163 阅读:38 留言:0更新日期:2018-11-28 05:08
本发明专利技术公开了一种重叠社区集合质量度量指标计算方法、装置,通过获取社区集合X、Y中各社区中的元素得到顶点集合V,分别遍历社区集合X、Y,记录各顶点vi在社区集合X、Y中全部所属社区的标签,得到标签集合ListXid[i]、ListYid[i],并构建各顶点的社区标签笛卡尔乘积数据集DicList[i],最后得到社区标签数据集合ListXid,之后基于贪心算法和负载均衡,将ListXid集合中的元素切分并分发至各个进程,由各进程运算处理得到计算各指标的所需数值,最后合并各指标相关数值至单一进程进行运算,得到关于社区集合X、Y的度量指标。该方法采用并行分布式计算框架MPICH并利用计数相同社区标签对来加速社区集合质量度量指标的运算速度,同时通过该重叠社区集合质量度量指标计算方法可同时计算出质量度量指标,适用于大规模重叠社区集合质量度量指标的计算。

【技术实现步骤摘要】
一种重叠社区集合质量度量指标的计算方法及装置
本专利技术属于计算机
,尤其涉及一种重叠社区集合质量度量指标计算方法及装置。
技术介绍
一般情况下,社交网络图可以抽象为节点和边构成的集合,其中节点表示网络中的个体,而边表示个体与个体之间的某种关联关系。社交网络图具有社区结构,其中,社区是由网络图中紧密连接节点构成,社区之间则通过稀疏的节点进行连接。社区发现即为对一个网络进行社区结构的刻画和划分,社区发现的结果则被称为社区集合。若社区集合中的节点仅属于一个社区,则该社区集合则被称为非重叠社区集合,否则被称为重叠社区集合。需要理解的是,通过不同的社区发现算法产生的社区集合是不同的,获知某一算法得到的社区集合与标准社区集合之间相似性或差异性,可通过计算相应的社区集合质量度量指标进行度量。对于重叠社区集合,可以通过MeasuresbasedonMutualInformation(基于交互信息的度量)这类指标进行度量,在现有的算法中,仅能通过串行算法计算得到该类度量指标。但是随着经济的快速发展和互联网2.0的到来,网络规模不断的增长,社区集合的规模也随之增长,通过串行算法计算得到的度量指标本文档来自技高网...

【技术保护点】
1.一种重叠社区集合质量度量指标的计算方法,其特征在于,该方法包括以下步骤:步骤1、获取社区集合X={X1,X2,...XK}、Y={Y1,Y2,...YK'},及包含社区集合X、Y中各社区的顶点集合V={v1,v2,...vn};所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数;步骤2、根据所述顶点集合V={v1,v2,...vn}中的每个顶点vi,分别遍历社区集合X={X1,X2,...XK}、Y={Y1,Y2,...YK'}中的各社区,记录各顶点vi在社区集合X、Y中所属社区的标签,得到标签集合ListXid[i]、ListYid[i],i为大于0小于n的整数;步骤3、根...

【技术特征摘要】
1.一种重叠社区集合质量度量指标的计算方法,其特征在于,该方法包括以下步骤:步骤1、获取社区集合X={X1,X2,...XK}、Y={Y1,Y2,...YK'},及包含社区集合X、Y中各社区的顶点集合V={v1,v2,...vn};所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数;步骤2、根据所述顶点集合V={v1,v2,...vn}中的每个顶点vi,分别遍历社区集合X={X1,X2,...XK}、Y={Y1,Y2,...YK'}中的各社区,记录各顶点vi在社区集合X、Y中所属社区的标签,得到标签集合ListXid[i]、ListYid[i],i为大于0小于n的整数;步骤3、根据DicList[i]=ListXid[i]×ListYid[i],构建对应于每个顶点vi的社区标签笛卡尔乘积数据集DicList[i];步骤4、按照元素类型(key,value),将各顶点vi对应的((DicList[i][j].1,0),DicList[i][j].2)、((DicList[i][j].2,1),DicList[i][j].1)元素添加至社区标签数据集合LidList,所述key为(key,value)类型的复合key;所述j为社区标签笛卡尔乘积数据集DicList[i]中元素的标签;步骤5、基于贪心算法和负载均衡,对所述社区标签数据集合LidList进行切分,并将切分得到的元素分发至多个进程;由各进程根据分发得到的元素进行运算处理,得到计算各指标的所需数值;步骤6、将所述各进程的所述各指标相关数值发送至单一进程,由所述单一进程进行运算,输出所述社区集合X、Y的度量指标。2.如权利要求1所述的重叠社区集合质量度量指标的计算方法,其特征在于,在步骤5中,所述基于贪心算法和负载均衡,对所述社区标签数据合LidList进行切分,并将切分得到的元素分发至多个进程的步骤包括:构建各进程对应的新建社区标签数据集合NewLidList;基于贪心算法和负载均衡,将所述社区标签数据集合LidList进行划分至各进程对应的新建社区标签数据集合NewLidList。3.如权利要求2所述的重叠社区集合质量度量指标的计算方法,其特征在于,在步骤5中,所述由各进程根据分发得到的元素进行运算处理,得到计算各指标的所需数值的步骤包括:将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序,并统计同一key中,不同value出现的次数;根据所述新建社区标签数据集合NewLidList中的元素以及所述元素个数进行运算...

【专利技术属性】
技术研发人员:冯禹洪吴远诗佘松罗秋明
申请(专利权)人:深圳大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1