一种多维社交网络的社区发现方法技术

技术编号:18084105 阅读:100 留言:0更新日期:2018-05-31 12:35
本发明专利技术公开了一种基于多维社交网络的社区发现方法,通过将社交网络中的好友关系网、评论关系网、推荐转发关系网以及兴趣相似网进行多层次的融合,得到用户间总相关度,然后将将每个用户看成一个节点,将用户间总相关度作为传递概率,用label propagation算法对社区进行划分,从而完成社交的发现,由于全方位考虑了用户社交行为,并进行了合理选取和融合,因而具有很好的准确性以及有效性。

【技术实现步骤摘要】
一种多维社交网络的社区发现方法
本专利技术属数据挖掘
,更为具体地讲,涉及一种基于多维社交网络的社区发现方法。
技术介绍
通常将网络抽象成一个图,用户用图中的节点表示,用户之间的关系用边表示,这种网络中所表现出的这种结构被称之为社区。社区内部节点间连接密度较高,而不同社区间的节点连接密度较低。社区发现是分析社交网络的一种有效方法,社区发现作为社交网络数据挖掘领域的研究热点,已经得到越来越多的学者的重视。在社区发现领域,许多学者提出或总结出一些经典的社区发现算法:1、文献[KernighnBW,LinS.Aefficientheuristicprocedureforpartitioninggraphs[J].BellSystemTechn-IcalJournal,1970,49(2):292~307.]提出了K-L算法,是一种试探优化法,算法中引入一个增益函数Q,然后采用贪婪算法原理交换节点对来使Q值达到最大,最后划分出两个大小已知的社区,缺点在于只能划分出两个社区且必须知道两个社区成员的数量;2、文献[GirvanM,NewmanMEJ.Communitystructureinsocialandbiologicalnetworks[J].ProceedingsoftheNationalAcademyofScie-nce,2002,99(12):7821-7826.]提出了GN算法,GN算法的思想在于社区间的边的介数大于社区内部边的介数,通过不断的移除介数最大的边,直到整个网络退化成一个社区为止,算法的优点在于不需要预先知道社区的数目,但其计算时间复杂度较高;3、文献[TangLei,WangXufei,LiuHuan.Communitydetectioninmultidimensionalnetworks[R]//TechnicalReportTR10-006.Arizona:ArizonaStateUniversity,2010.]提出了解决多维网络的算法,该算法首先将多维网络集成,主要有4种集成方法:网络集成(networkintegration)、效用集成(utilityintegration)、特征集成(featureintegration)和划分集成(partionintegration),然后利用谱聚类方法、随机块模型方法或隐含空间模型能够将上述集成后的网络进行社区划分,但缺点是都只能对中等规模的无向网络管用,并不适合于复杂的有向多维社交网络的社区发现。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种基于多维社交网络的社区发现方法,以提高多维社交网络的社区发现的准确性和有效性。为实现上述专利技术目的,本专利技术基于多维社交网络的社区发现方法,其特征在于,包括以下步骤:(1)、用户间社交关系紧密度计算1.1)、将好友关系网从有向无权网络转化为无向带权网络用户与用户之间有互相关注行为,用户i关注用户j或者用户j关注用户i或者两者互相关注形成了有向网络;定义用户i与用户j相互关注,则用户i与用户j之间边的权值为1,只有用户i关注用户j或者只有用户j关注用户i,则定义用户i与用户j之间边的权值为0.5,即:1.2)、评论关系、推荐转发关系网融合为评论推荐网1.2.1)、定义用户间关系强度:其中,Recij=min(wij,wji)/max(wij,wji),wij表示用户i对用户j的评论或推荐转发次数,wji表示用户j对用户i的评论或推荐转发次数;1.2.2)、将用户关系强度Sij标准化,令D为所有用户关系强度中的最大值,则标准化后的用户关系强度Dij=Sij/D,Dij的取值范围为[0,1];1.3)、对好友关系网、评论推荐网进行融合为社交关系网,用户间社交关系紧密度Cij:Cij=αFij+βDij其中,参数α、β为融合权重参数,α+β=1;(2)、用户间主题相似度计算2.1)、爬取每个用户的标签信息和博文内容,然后利用分词工具剔除介词、连词等无法体现用户主题的冗余词汇,留下能够表示用户主题的名词等词汇,再统计各个词汇的频数即词频,并根据词汇所属主题类别,统计各个主题类别下各个词汇词频的总数即主题类别词频;将各主题类别词频映射到0到10之间,并表示为向量,该向量为表征用户兴趣的特征向量即兴趣特征向量,所有用户的兴趣特征向量构成兴趣相似网;2.2)、根据用户的兴趣特征向量,得到用户间主题相似度Tij:其中,xi_k为用户i的兴趣特征向量中的第k个主题类别词频,xj_k为用户j的兴趣特征向量中的第k个主题类别词频,n为主题类别数量;(3)、用户间总相关度计算根据社交关系紧密度以及主题相似度,得到用户间总相关度Rij:Rij=γCij+(1-γ)Tij其中,γ为分配权值,为0到1之间;(4)、社区进行划将每个用户看成一个节点,将用户间总相关度作为传递概率,用标签传播算法(labelpropagation算法)对社区进行划分:将所有具有相同标签的节点即用户划为一个社区,从而完成社交的发现。本专利技术的专利技术目的是这样实现的:本专利技术基于多维社交网络的社区发现方法,通过将社交网络中的好友关系网、评论关系网、推荐转发关系网以及兴趣相似网进行多层次的融合,得到用户间总相关度,然后将将每个用户看成一个节点,将用户间总相关度作为传递概率,用labelpropagation算法对社区进行划分,从而完成社交的发现,由于全方位考虑了用户社交行为,并进行了合理选取和融合,因而具有很好的准确性以及有效性。附图说明图1是本专利技术基于多维社交网络的社区发现方法一种具体实施方式流程图;图2是好友关系图转成从有向无权网络转化为无向带权网络示意图;图3是实验检验的NMI变化曲线图;图4是划分出社区的实验仿真图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。图1是本专利技术基于多维社交网络的社区发现方法一种具体实施方式流程图。在本实施例中,如图1所示,首先利用爬虫软件爬取社交网络中包括用户ID、关注情况、推荐转发情况,用户博文内容,得到好友关系网、评论关系网、推荐转发关系网,同时,利用分词工具对用户博文内容进行处理,得到兴趣相似网。1、用户间社交关系紧密度计算社交关系主要包括好友关系,评论关系以及推荐转发关系,将三种关系网进行计算融合成一张社交关系关系网,用户与用户之间的社交强弱关系用社交紧密度表示。具体步骤为:1.1)、将好友关系网从有向无权网络转化为无向带权网络用户与用户之间有互相关注行为,用户i关注用户j或者用户j关注用户i或者两者互相关注形成了有向网络。如图2所示,定义用户i与用户j相互关注,则用户i与用户j之间边的权值为1,只有用户i关注用户j或者只有用户j关注用户i,则定义用户i与用户j之间边的权值为0.5,即:1.2)、评论关系、推荐转发关系网融合为评论推荐网1.2.1)、定义用户间关系强度:其中,Recij=min(wij,wji)/max(wij,wji),wij表示用户i对用户j的评论或推荐转发次数,wji表示用户j对用户i的评论或推荐转发次数;1本文档来自技高网
...
一种多维社交网络的社区发现方法

【技术保护点】
一种基于多维社交网络的社区发现方法,其特征在于,包括以下步骤:(1)、用户间社交关系紧密度计算1.1)、将好友关系网从有向无权网络转化为无向带权网络用户与用户之间有互相关注行为,用户i关注用户j或者用户j关注用户i或者两者互相关注形成了有向网络;定义用户i与用户j相互关注,则用户i与用户j之间边的权值为1,只有用户i关注用户j或者只有用户j关注用户i,则定义用户i与用户j之间边的权值为0.5,即:

【技术特征摘要】
1.一种基于多维社交网络的社区发现方法,其特征在于,包括以下步骤:(1)、用户间社交关系紧密度计算1.1)、将好友关系网从有向无权网络转化为无向带权网络用户与用户之间有互相关注行为,用户i关注用户j或者用户j关注用户i或者两者互相关注形成了有向网络;定义用户i与用户j相互关注,则用户i与用户j之间边的权值为1,只有用户i关注用户j或者只有用户j关注用户i,则定义用户i与用户j之间边的权值为0.5,即:1.2)、评论关系、推荐转发关系网融合为评论推荐网1.2.1)、定义用户间关系强度:其中,wij表示用户i对用户j的评论或推荐转发次数,wji表示用户j对用户i的评论或推荐转发次数;1.2.2)、将用户关系强度Sij标准化,令D为所有用户关系强度中的最大值,则标准化后的用户关系强度Dij=Sij/D,Dij的取值范围为[0,1];1.3)、对好友关系网、评论推荐网进行融合为社交关系网,用户间社交关系紧密度Cij:Cij=αFij+βDij其中,参数α、β为融合权重参数,α+β=1;(2)、用户间主题相似度计算2.1)、爬取每个用户的标签信息和博文内容,然后利用分词工具剔除介词、连词等无法体现用户主题的冗余词汇,留下能够表示用户主题的名词等词汇,再统计各个...

【专利技术属性】
技术研发人员:邢玲马强高建平朱家磊吴红海谢萍
申请(专利权)人:河南科技大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1