社区发现方法技术

技术编号:8215666 阅读:194 留言:0更新日期:2013-01-17 13:20
本发明专利技术公开了一种社区发现方法。包括步骤:分析每个用户的信息,从中提取特征词,计算用户对应的特征向量;以某一个用户为基准,计算其余用户与该用户的相似度;将相似度高于门限值的用户标记为相似用户,将所有相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户,计算并简化新用户的特征向量;直到新用户达到设定的社区发现门限时完成新社区的发现。本发明专利技术的方法根据用户多属性相似度进行社区划分,不依赖用户的网络行为,在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内,且发现的社区属性丰富,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。

【技术实现步骤摘要】

本专利技术属于社会网络领域,具体涉及一种基于多属性相似度的。
技术介绍
随着互联网的快速发展,社会网络得到了越来越多的关注,如何发掘社会网络内个体的关系,已经成为研究的重点。社会网络是由一个个单独的个体组成的,这些个体之间相互联系相互依赖形成了一个关系网络,这些个体之间的联系有紧密的,也有稀疏的,将社会网络中具有紧密联系的个体的集合称为社区。社区发现是社会网络分析的一种重要方法,可以发现社会网络中内部紧密联系的个体;社区存在的意义是为了给社会网络中的个体提供一个相互交流和共享信息的平台,因此,如何正确划分一个社区将直接决定这个社区的价值。现有的主要有两类,第一类方法是基于个体的兴趣,计算各个个体兴趣的相似度,将个体按兴趣划分到不同的群组,从而得到以兴趣为中心的社区结构;第二类方法是基于个体的直接关系,将社会网络划分为各个社区,形成以个体为中心的社区网络。按照上述方法划分社区时都存在一定的缺陷。第一类方法只按照个体的兴趣来划分社区,这样的社区属性比较单调,可交流或共享的信息局限,且个体之间的关系不紧密,即使有相同的兴趣可能也会因为层次的不同而不能很好的沟通;按照第二类方法划分的社区中,个体联系比较紧密,但由于社区属性过于庞杂,主题明确不明确,个体之间不能有很好的交流点。
技术实现思路
本专利技术的目的是为了解决现有的存在的上述问题,提出了一种。本专利技术的技术方案是一种,具体包括如下步骤步骤I :建立一个基准特征向量£和特征词库;步骤2 :提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G= (V, E),其中,G表示一个社会网络,V表示用户V的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位。将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词;步骤3 :建立用户特征向量,用户Vi的特征向量用数学符号= [AjJiiXjJ')., ...)来表示,其中,i为用户标号,為,属,ζ,Α:,...为特征向量爲的分量;步骤4:计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户Vi和\相似度的采用如下公式得到权利要求1.一种,具体包括如下步骤 步骤1 :建立一个基准特征向量Z和特征词库; 步骤2:提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G= (V, E),其中,G表示一个社会网络,V表示用户V的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位,将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词; 步骤3 :建立用户特征向量,用户Vi的特征向量ζ用数学符号4 =(為,爲来表示,其中,i为用户标号,為,...为特征向量Ii的分量; 步骤4 :计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户Vi和\相似度的采用如下公式得到2.根据权利要求I所述的,其特征在于,步骤6中所述的发现新的社区具体过程如下 步骤7 :计算步骤6中得到的新用户对应的用户特征向量,新用户对应的用户特征向量是通过其子用户的特征向量计算得到的,该步骤分为两个部分更新基准特征向量£和计算新用户特征向量; 更新基准特征向量Z :将所有子用户的各个分量的模相加,得到新用户各个分量的相似度权值Wm,其中,m表示新用户的标号,具体的计算公式为全文摘要本专利技术公开了一种。包括步骤分析每个用户的信息,从中提取特征词,计算用户对应的特征向量;以某一个用户为基准,计算其余用户与该用户的相似度;将相似度高于门限值的用户标记为相似用户,将所有相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户,计算并简化新用户的特征向量;直到新用户达到设定的社区发现门限时完成新社区的发现。本专利技术的方法根据用户多属性相似度进行社区划分,不依赖用户的网络行为,在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内,且发现的社区属性丰富,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。文档编号G06F17/30GK102880644SQ20121030409公开日2013年1月16日 申请日期2012年8月24日 优先权日2012年8月24日专利技术者于秦, 李定伟, 马立香, 毛玉明 申请人:电子科技大学本文档来自技高网...

【技术保护点】
一种社区发现方法,具体包括如下步骤:步骤1:建立一个基准特征向量和特征词库;步骤2:提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G=(V,E),其中,G表示一个社会网络,V表示用户v的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位,将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词;步骤3:建立用户特征向量,用户vi的特征向量用数学符号来表示,其中,i为用户标号,为特征向量的分量;步骤4:计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户vi和vj相似度的采用如下公式得到:sim(L→i,L→j)=w1sim(A→i,A→j)+w2sim(B→j,B→j)+w3sim(C→i,C→j)+...i≠j其中,和分别为用户vi和vj的特征向量,特征向量中的元素个数为N,各个分向量的相似度的权重wi,(i=1,2,…,N)满足是L→i=(A→i,B→i,C→i,D→i,...)和L→j=(A→j,B→j,C→j,D→j,...)的分向量的相似度,采用如下公式:sim(A→i,A→j)=A→i·A→j+ϵmax(||A→i||2,||A→j||2)+ϵ+min(||A→i||2,||A→j||2)-A→i·A→j||A→max||2,i≠j其中,分别为两个用户所对应的特征向量中分向量的模,表示两个分向量的内积,ε表示一个极小值,表示全为1的向量,即步骤5:将相似度高于相似门限值的用户记录为相似用户,把所有的相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户;步骤6:重复步骤4和步骤5,直到所有用户都被划分到新用户中,若新用户达到预先设定的社区发现的门限值时,发现新的社区,该新用户内的所有子用户组成一个社区。FDA00002052516800011.jpg,FDA00002052516800012.jpg,FDA00002052516800013.jpg,FDA00002052516800014.jpg,FDA00002052516800015.jpg,FDA00002052516800017.jpg,FDA00002052516800018.jpg,FDA00002052516800019.jpg,FDA000020525168000110.jpg,FDA000020525168000113.jpg,FDA000020525168000114.jpg,FDA000020525168000116.jpg,FDA000020525168000117.jpg,FDA000020525168000118.jpg,FDA000020525168000119.jpg,FDA000020525168000120.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:于秦李定伟马立香毛玉明
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1