一种兴趣和网络结构双内聚的社交网络社区发现方法技术

技术编号:10866716 阅读:110 留言:0更新日期:2015-01-07 07:57
本发明专利技术公开一种兴趣和网络结构双内聚的社交网络社区发现方法。它首先将用户在社交网络中所发布的内容进行归档,并使用已有兴趣特征提取方法提取各用户的兴趣特征,进而采用交集运算获取各用户关系的兴趣特征集,形成社交网络R-C模型。在此基础上,采用已有的相似度计算方法计算具有共同用户的两个用户关系的兴趣特征相似度;接着,以R-C模型中的用户关系为节点,以两个用户关系之间是否有共同好友为边,以用户关系间的兴趣特征相似度为边的权值,形成社交网络加权无向图;再接着,采用已有的加权无向网络社区发现算法对挖掘用户关系社区;最后,将用户关系社区中的用户关系直接映射为其所关联的两个用户,形成社交网络用户社区。

【技术实现步骤摘要】
—种兴趣和网络结构双内聚的社交网络社区发现方法
本专利技术涉及智能信息处理和数据挖掘领域,具体地说是一种在社交网络上挖掘兴趣和网络结构双内聚的社区的方法。
技术介绍
社区发现是指在社会网络中,发现内聚的子群。社区发现是社会网络分析的重要问题,它有助于人们进一步认识、理解和掌握所研究的复杂网络对象,进而,实现更深入的应用研究,例如个性化推荐,朋友推荐,大规模网络压缩求解,异质网络分析,社会网络演变等。兴趣和网络结构双内聚的用户社区发现是精准的市场营销和准确的个性化推荐服务等的重要研究内容。现实生活中,人们往往传播其所能接触到的感兴趣的信息。因此,好的用户社区发现应同时满足网络结构和兴趣双方面的内聚。网络结构是社区内部节点间信息传播的桥梁,兴趣是信息传播的原因。 得益于移动互联网的发展,微博用户规模及其社会影响力迅速增长。世界上最大的微博社区Twitter有不少于5亿的注册用户,每月活跃用户为2.3亿,而日活跃用户为1亿,每天推文5亿次1。最大的中文微博社区新浪微博也拥有超过5亿的注册用户,每天有高达4.62千万的活跃用户和不少于1亿的微博。社交网络是现实社会的缩影,它为人们提供了巨量的有价值的研究数据。人们使用社交网络进行政治、市场营销等活动,社交网络已成为一个公认的发表意见与看法的平台。 目前,针对社交网络用户社区发现的方法大致可分为三种:①基于用户内容(文本聚类法)。将用户所发布的内容进行兴趣特征提取,然后,基于兴趣特征进行用户聚类;该类方法忽略了社交网络网络结构(用户关系)在信息传播中的桥梁作用。②基于用户联系。提取社交网络的关注或好友关系,将问题转化为图论等问题进行社区发现;该类方法没有考虑用户的兴趣特征,因此,无法证明其兴趣的内聚性。③综合方法。将用户内容和用户联系相结合,基于内容提取基于兴趣的用户社区,基于用户联系提取基于联系的用户社区,再采用某种方法将两个社区进行融合,形成兴趣和网络结构双内聚的用户社区;该类方法由于需要进行两次社区发现,且需要进行社区融合;因此,算法效率较低。 文本聚类法主要通过计算社区内节点的文本内容的相似性,根据相似性将文本内容相似的节点划分为社区。早在1999年,Kleinberg等人提出了基于内容的网页聚类方法,即著名的HITS算法。主题模型是文本聚类法最典型的算法。2003年,Blei等人提出了 LDA模型,LDA模型认为文档是多个主题的概率分布。2004年,Syeyvers等人认为主题是多个关键词的概率分布,用户也以某种概率分布对多个主题感兴趣,并提出了 AT (Author-Topic)模型用于发现用户、文档、主题和关键词之间的关系。2007年,McCal lum等人基于发送-接受关系提出了 ART(Author-Recipient-Topic)模型用于聚类具有相似兴趣的用户。在ART模型的基础上,2008 年,Pathak 等人提出 CART (Community-Author-Recipient-Topic)模型。这些模型都忽略了用户之间显著的用户关系,从而可能导致社区发现结果的不合理。 基于网络结构的社区发现算法是目前较为流行且研究较多的方法。这类方法根据用户之间的相互关系将社区网络划分为社区内联系紧密,社区之间联系稀疏的多个子社区。1970年,B.W.Kernighan和S.Lin针对图分割问题提出了 KL算法,该算法应用于复杂网络社区发现,就是社区发现图分割法的典型算法。图分割法通过迭代的方式,将图分解为最优的两个子图,反复处理,直至得到足够数目的子图。2002年,M.Girvan和Μ.E.J.Newman提出了 GN算法,它通过反复识别和删除网络中边介数最大的连接,实现复杂网络聚类。GN算法的复杂度较高,但它启发了人们对复杂网络社区发现的思路。2004年,Μ.E.J.Newman和M.Girvan提出的网络模块性评价函数-模块度Q。Q函数为社区内的实际连接数目与随机连接下社区内的期望连接数目之差,它描述了所发现社区的优劣。Q值越大则社区结构越好。在此基础上,Newman提出了基于局部搜索的快速复杂网络聚类算法,即快速Newman算法。快速Newman算法通过局部搜索,找到极大化的Q值,从而实现社区划分。同年,Newman等人从算法复杂度的角度出发,通过引入模块度增量矩阵和堆结构,将快速Newman算法演进为了 CNM算法。2005年,R.Guimera和L.A.N.Amaral以优化目标函数Q为目标,提出了基于模拟退火算法(Simulated Annealing, SA)的复杂网络聚类算法_GA算法。SA的引入使得GA算法具有找到全局最优解的能力;因而,GA算法具有很好的聚类精度。基于模块度优化的聚合方法是目前比较流行的社区发现算法,并被扩充到了加权网络社区发现、有向网络社区发现和重叠社区发现等。虽然,基于网络结构(用户关系)的社区发现算法能够对用户进行聚类,但由于其忽略了用户之间的共同兴趣特征;因此,不能保证社区发现的兴趣内聚性。 针对上述两种社区发现在兴趣社区发现上的不足。2012年,Zhang等人提出了将用户关系同用户内容进行结合,发现用户社区。他们采用NMF方法进行基于用户关系的社区发现,采用AT模型用于兴趣社区的发现,并在此基础上,将两种社区发现结果进行融合,并在Tweets和Delic1us上进行了验证。燕飞等人首先对个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用社会网络拓扑结构信息,对兴趣社区进行扩展,并在Flickr上进行了实验分析。这些方法虽然得到了较好的兴趣社区发现,并能将用户根据其兴趣划分到多个不同的社区,符合实际情况,但其算法逻辑较为复杂,而且复杂度较高。 真实世界中的社区结构大多数都是重叠且具有层次结构。社交网络用户往往具有多样化的兴趣特征;因此,社交网络中的用户社区发现是重叠社区发现问题。CPM算法是目前流行的重叠社区算法,其在自然和社会学等领域都有所应用,且被推广到了加权网络的重叠社区发现。然而,CPM算法认为社区是强连通的簇;其对社区苛刻的定义使得在稀疏网络(如新浪微博用户联系网络等)中社区发现效果较差。此外,CPM算法需要指定k值,且复杂度较高,也制约了 CPM算法在大数据网络中的运用。2010年,Ahn等人提出了边社区概念及其算法-LCA算法,并在生物网络、社会网络和其他代表性网络(哲学家关系网、单词关系网和Amazon, com产品联系网)上,对照CPM算法、Infomap算法和快速Newman算法,验证了 LCA算法能发现质量更好的重叠社区。 LCA算法以边作为聚类节点,对边进行聚类,并根据边所属的社区,将节点划分到多个不同的社区。在一个具有N个节点的加权网络中,LCA算法假定对于任一节点i都有属性向星 = (An,..., AiN),且 4 =f Σ w>Aj+wy 其中,为边eu的权重,η⑴为与节点i有连接关系的所有邻居节点集合,匕为集合n(i)的元素数量,当i = j时,δ u = 1,其他情况为0。在LCA算法中,边eu的权重 表征具有联系的两个节点i和j在某种性质上相关度;通常权重值越高,相关度越大。根据不同的应用,w.j的具本文档来自技高网...
一种兴趣和网络结构双内聚的社交网络社区发现方法

【技术保护点】
一种兴趣和网络结构双内聚的社交网络社区发现方法,其特征在于,所述方法包括如下步骤:I.构建社交网络R‑C模型;II.在R‑C模型中,采用已有的相似度计算方法计算具有共同用户的两个用户关系的兴趣特征相似度;III.以R‑C模型中的用户关系为节点,以两个用户关系之间是否有共同好友为边,以用户关系间的兴趣特征相似度为边的权值,形成社交网络加权无向图;IV.采用已有的加权无向网络社区发现算法对上述网络进行用户关系社区发现;V.逐一遍历用户关系社区,将用户关系社区中的用户关系直接映射为其所关联的两个用户,形成社交网络用户社区,完成社交网络社区发现。

【技术特征摘要】
1.一种兴趣和网络结构双内聚的社交网络社区发现方法,其特征在于,所述方法包括如下步骤: 1.构建社交网络R-C模型; I1.在R-C模型中,采用已有的相似度计算方法计算具有共同用户的两个用户关系的兴趣特征相似度; II1.以R-C模型中的用户关系为节点,以两个用户关系之间是否有共同好友为边,以用户关系间的兴趣特征相似度为边的权值,形成社交网络加权无向图; IV.采用已有的加权无向网络社区发现算法对上述网络进行用户关系社区发现; V.逐一遍历用户关系社区,将用户关系社区中的用户关系直接映射为其所关联的两个用户,形成社交网络用户社区,完成社交网络社区发现。2.如权利要求1所述的社交网络R-C模型,其特征在于,其构建步骤如下: 1.将用...

【专利技术属性】
技术研发人员:周小平
申请(专利权)人:北京建筑大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1