当前位置: 首页 > 专利查询>北京大学专利>正文

综合行动者兴趣与网络拓扑的社区发现方法技术

技术编号:4044788 阅读:186 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种综合社会行动者兴趣和社会网络拓扑结构的社区发现方法,属于社会网络技术领域。对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果。本发明专利技术文提出的方法比单纯基于兴趣聚类的方法在有效性上有较大的提高。本发明专利技术应用于社会网络、资源共享平台,可以为信息检索系统、个性化推荐系统等服务,挖掘社区结构,利用社区特性,改进个性化服务质量。

【技术实现步骤摘要】

本专利技术涉及一种Web2.0下资源共享平台中的社区挖掘,尤其是一种综合行动者 兴趣与网络拓扑的社区发现方法,属于社会网络

技术介绍
社区广泛存在于人类社会中,它们有多种多样的结构形式和组织形式,如家庭、同 事圈子、朋友圈子、小区、城市、甚至国家。一般来讲,一个社区(或者称作群组)是由一系 列节点组成,社区内节点的相互联系相对紧密,社区间节点联系则相对稀松。近年来,随着 Web2. 0技术的迅猛发展,Web上出现了各种虚拟群组、在线社区等应用系统。在线社会网络 系统的发展,使得大规模社会网络数据的获取成为了可能性。如何在大规模社会网络中挖 掘出社区信息,成为了一个热门的研究方向,吸引了众多研究者的参与。社区的主要功能是为具有相同兴趣的人们提供一个交流和共享的平台。一般来 说,有两类社区发现的方法,第一类方法基于行动者的个人兴趣,将社区发现的问题映射为 计算行动者的兴趣相似度的问题,进而将兴趣划分到不同的群组,从而得到以兴趣为中心 的社区结构。例如,使用最广泛的划分聚类方法一一k-means聚类法。第二类方法直接基 于行动者间的联系,根据社区的定义,将社会网络划分为各个社区,形成以行动者为中心的 社区结构。例如,Grivan和Newman提出了的分裂式社区发现算法,该算法通过依次移除边 介(betweermess)数大的边,发现图中的社区结构。不论是基于兴趣的社区发现方法,还是 基于社会联系的社区发现方法均只考虑了社区特性的一个方面。实际上,兴趣和社会联系 对于社区的共享和交流功能来说都具有重要的作用。例如,社区的两个成员可能因为共同 兴趣而成为朋友,成员也有可能推荐其有类似兴趣的朋友加入社区。社区和行动者社会网 络是相互作用、共同发展的。
技术实现思路
本专利技术的目的在于综合社会行动者兴趣和社会网络拓扑结构,从而实现一种新的 社区发现方法,该方法比起传统的社区发现算法,更加接近于真实社区的发展过程。本专利技术提出的方法分为两个部分第一部分,基于兴趣的社区发现。首先利用聚类算法,提取行动者兴趣特征,聚类 成兴趣社区。然后将根据行动者-兴趣关联信息,将行动者划分到相应的社区中,形成以兴 趣为中心的社区C”第二部分,基于社会网络的社区扩展。首先利用行动者社会网络和行动者的兴趣, 计算社会网络中边的权值。然后在这个带权社会网络中,使用带重启机制的随机游走算法, 计算行动者之间的相关度。接着根据行动者间相关度和方法第一部分发现的社区,计算行 动者到社区的相关度,从而将行动者加入到相关度最高的k个社区中,形成第三种结构的 社区Ciu。方法的流程如图1所示,具体包括如下步骤3A.把用户按照标注过的资源表示成标签向量(即兴趣向量)的形式;B.对上一步产生的向量进行k-medoids聚类,产生基于兴趣的用户社区;C.按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社会网 络图;D.在社会网络图上用随机游走算法,计算两个用户之间的相关度;E.根据用户相关度和步骤B中产生的基于兴趣的社区,计算用户与社区的相关度。本专利技术的有益效果本专利技术提出方法逻辑比起传统的社区发现算法,更加接近于 真实社区的发展过程,在有效性上有较大的提高。本专利技术应用于社会网络、资源共享平台, 可以为信息检索系统、个性化推荐系统等服务,挖掘社区结构,利用社区特性,改进个性化 服务质量。附图说明图1为根据本专利技术的的总流程图图2为以兴趣为中心的社区结构;图3为以行动者为中心的社区结构;图4为本专利技术提出的综合社区结构;图5为扩展社区_女k对纯度的影响示意图6为扩展社区_女k对熵的影响示意图7为随机游走启概率a对纯度的影响示意图8为随机游走启概率a对熵的影响示意图。具体实施例方式下面通过实例对本专利技术做进一步说明。需要注意的是,公布实施例的目的在于帮 助进一步理解本专利技术,但是本领域的技术人员可以理解在不脱离本专利技术及所附权利要求 的精神和范围内,各种替换和修改都是可能的。因此,本专利技术不应局限于实施例所公开的内 容,本专利技术要求保护的范围以权利要求书界定的范围为准。实例1以下结合一个照片共享网站的例子,详细描述本专利技术的具体实施方式。在一个照片共享平台中,用户能够对每一张照片进行标签、收藏等行为。同时,用 户之间形成社区,用户可以根据自身兴趣参加到不同社区。用户与用户之间可以显示申明 朋友关系。一共有以下几个步骤。步骤1 对原始数据进行预处理,把用户按照标注过的资源表示成标签向量的形 式。步骤2 对上一步产生的向量进行k-medoids聚类,产生基于兴趣的用户社区。 k-medoids聚类方法流程如下1)随机挑选k个点作为质心;2)对每个点计算该点到每个社区中心的距离,把该点加入与它距离最近的社区;43)重新计算每个社区的中心,中心向量定义为社区内所有点的向量平均值;4)重新计算每个点到所属中心的距离,选离中心最近的点作为社区中心;5)重复2)、3)、4)三个步骤,直到每个社区内的点不再变化。步骤3 按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社 会网络图。社会网络中边的权重代表了用户之间熟悉程度。然而真实社会网络权值信息往往 很难获取,因此本专利技术考虑行动者之间的显式联系和共同拥有的资源数作为量化社会网络 权重的方法。只要社会行动者之间声明了社会联系,那么这条边的权值基数就为0. 5,使用 共同资源计算出的权重作为权重的另一部分,与权重基数叠加形成最终的权重,权重的具 体计算方法如下设行动者Ui拥有的资源集合为Ri,行动者~拥有的资源集合为、同时Ui到Uj存 在边eij,那么边 的权值Wij由公式⑴计算出 步骤4 在社会网络图上用随机游走算法,计算两个用户之间的相关度。得到了带权的社会网络,并将每个社会行动者的关联边权重进行归一化后,可以 使用带重启机制的随机游走算法,计算一个行动者到其他所有行动者的相关度。带重启机制的随机游走(Random Walk with Restarts(RffR))可以用于计算图中 任意两点之间的相关度。从点u出发,每一步RWR随机地沿图中的边由一个结点到达另一 个结点,同时,每一步都以a的概率从点u重新出发(restart)。RWR的基本思想可以表示为p(t+1) = (l-a)Sp(t)+aq(2)ρω和q为列向量,其中Pi⑴表示第t步时到达点i的概率,Pi(°)表示从目标行动 者出发。q表示初始状态,元素Qi表示初始时在结点i的概率,本专利技术将起始点在q中的初 始概率设为1,其它点的概率设置为0。S是转移概率矩阵,Su是当前在点i,下一步达到结 点j的概率。对于一个非周期不可约的图,在有限步迭代之后,到达图中任意点的概率达到 平稳分布的状态,再次迭代也不改变图中的概率分布。对社会网络中每一个结点,从该结点出发,进行RWR计算,直至算法收敛,从而得 到了目标结点到网络中其它结点的相关度S。这里的结点间的相关度是有序的,即一般来说,对于 U1 Φ U2,有 S (U1, U2) Φ S (U2, U1)。步骤5 根据用户相关度和步骤2中产生的基于兴趣的社区,计算用户与社区的相 关度。其中用户社区的相关度定义为用户与该社区所有成员相关度的平均值。对于一个用户Ui,和一个社区Ck,用户到社区的相关度s(Ui本文档来自技高网
...

【技术保护点】
一种Web社区发现方法,应用于社会网络和资源共享平台,其特征在于,所述方法综合了社会行动者兴趣和社会网络拓扑结构,包括以下步骤:A.把用户按照标注过的资源表示成标签向量的形式;B.对上一步产生的向量进行k-medoids聚类,产生基于兴趣的用户社区;C.按照用户之间建立的朋友关系,计算用户社会网络边的权重,生成带权社会网络图;D.在社会网络图上用随机游走算法,计算两个用户之间的相关度;E.根据用户相关度和步骤B中产生的基于兴趣的社区,计算用户与社区的相关度。

【技术特征摘要】

【专利技术属性】
技术研发人员:张铭燕飞谭裕韦
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1