社交网络意见领袖识别方法技术

技术编号:8735131 阅读:213 留言:0更新日期:2013-05-26 11:44
本发明专利技术公开了一种社交网络意见领袖识别方法,用于解决现有的社交网络意见领袖识别方法效率低的技术问题。技术方案是首先获取社交网络数据;再根据社交网络特性建立信息传播模型;然后根据信息传播模型以及社交网络拓扑信息,计算每个节点度数;将其中影响力最大的节点作为第一个种子节点;在新的节点集合中检测余下的种子节点,形成一个按影响力大到小排序的种子节点集合;从影响力排序的种子节点集合中,选取前n个种子节点,构成意见领袖集合,从而识别出社交网络中具有不同影响力或号召力的意见领袖。由于通过检测社交网络中影响力最大的种子节点来识别意见领袖,节省了大量的盲目检测时间,提高了识别效率。与背景技术相比,识别效率提高了50~90%。

【技术实现步骤摘要】

本专利技术涉及一种识别方法,具体涉及一种。
技术介绍
随着Web2.0技术的发展,社交网络(SNS)已成为互联网中非常流行的网络应用。目前,一些大规模在线社交网站,如Facebook的访问量已经超过谷歌,成为美国第一大网站,而国内深受大学生欢迎的人人网,目前注册用户已达I亿,日登陆2200万人次(2009年10月27日人人网公布的数据),2009年12月alexa网站的数据显示国内外网站访问量前15名中社交网站已分别占到4个和6个。社交网站每天都有数百万在线用户,这包含着巨大潜在的商机,比如一些公司可以利用社交网站在线用户来推销他们的产品。在社交网络中,种子节点的影响力对推动信息传播是非常重要的。一些通过病毒式市场营销方式来推销其产品、服务的公司或用户对如何选择具有影响力的种子节点怀有很大的兴趣。比如A公司想在社交网站为其产品做广告,由于广告费用有限,只能投放K个用户,A公司希望这些最初的用户能够喜欢其产品,并以他们作为种子节点,在社交网络中以口碑相传方式来影响他们的朋友,让他们的朋友也喜欢其产品,而他们的朋友又通过社交网络进一步影响更多的朋友,使更多的用户都能喜欢其产品。A公司当然希望最初选择的用户(即种子节点)都具有较大影响力,所影响的人数尽可能地多,从而花费少量的费用就可达到最大的广告效益。可见,种子节点在网络信息传播过程中发挥了重要的作用,他们相当于意见领袖,通过他们的引导和影响,局部意见可能演化为网络舆论。统计数据显示,网络中的大部分用户不经常参与信息的制造与传播,他们做出的决定往往跟随意见领袖。有效地识别网络意见领袖,通过意见领袖发表引导性信息来影响所在网络用户而非直接说服他们,可以有效地触发整个网络或社会的影响力,对于推动信息传播,提高广告效应具有重要的现实意义。人们从不同角度研究了社交网络意见领袖发现和识别问题,通过检测社交网络中影响力最大的种子节点来识别意见领袖是其中的一种重要方法,并引起业界的关注和重视,将此类问题归结为影响力最大化问题。对于影响力最大化问题,目前求解算法主要分为两类:⑴复杂网络算法,比如基于节点度和基于中心的算法等,这类算法存在的主要问题是所得到的种子节点影响力偏低;(2)贪婪算法,其主要问题是计算效率较低、计算时间不稳定以及可扩展性较差等。Kempe 等在文献“Maximizing the spread of influence through a socialnetwork (SIGKDD,pages 137-146, 2003)”中,将影响力最大化问题作为一个离散优化问题,证明了影响力最大化问题是一个NP难题,并提出一个近似的贪婪算法,其核心思想是每次选取影响力增值最大的节点作为种子节点,证明了贪婪算法得到种子节点的影响力不低于最优算法的(l-1/e),并研究了三种不同离散的信息传播模型以及在模型中如何寻找具有最大影响力的种子节点。实验结果显示,贪婪算法得到种子节点影响力明显地高于传统的基于节点度和基于中心的算法,但该贪婪算法有一个严重的缺点,就是计算效率问题,比如在适度规模社交网络中(约15000节点)搜索最大影响力的种子节点需要在一台服务器上计算数天时间,而在大规模社交网络中有数百万计的节点,计算时间将可能成指数倍增长。Leskovec 等在文献“Cost-effective outbreak detection in networks(SIGKDD,pages420-429, 2007)” 中,提出一个 CELF(Cost-Effective Lazy Forwardselection)优化贪婪方法,该方法是基于影响力具有子模函数特征提出的,即所有节点的影响力随着种子节点集合中节点数目增加在减弱,具有单调递减性。该方法分为两个步骤:第一个步骤用于选择第一个种子节点,在全部节点中搜索种子节点,选择影响力最大节点加入到种子节点集合中;第二个步骤用于选择余下种子节点,利用影响力具有单调递减性这一性质在部分影响力较大节点中搜索种子节点。由于在第二个步骤中此方法搜索种子节点空间的减少,因此计算效率有了较大提高。实验结果显示,在搜索结果相同的情况下,CELF算法比原始贪婪算法的计算速度提高了近700倍,但对于大规模的社交网络,它的计算效率依然比较低。Wei Chen 等在文献“Efficient influence maximization in socialnetworks (SIGKDD, pp.199-208, 2009) ” 中,提出了一个新的贪婪算法(NewGreedy),基本思想是在社交网络图中,以节点间影响因子P选择相关边,建立一个全新的子图,然后选择子图中度数最大的节点作为种子节点,并且还提出一个MixGreedy算法,它分为两部分,第一部分采用NewGreedy算法思想选取第一个种子节点,第二部分采用CELF算法思想选取余下种子节点。MixGreedy算法结合了 NewGreedy算法和CELF算法的优点,其计算效率比CELF算法有所提高。由于在线性阈值模型中节点间并不以影响因子P来相互激活,MixGreedy算法需要从独立级联模型或带权级联模型中求得种子节点,再在线性阈值模型中计算它们的影响力,因此其搜索结果与其他贪婪算法有时相差较大,在线性阈值模型中可扩展性较差。
技术实现思路
为了克服现有的效率低的不足,本专利技术提供一种。该方法通过检测社交网络中影响力最大的种子节点来发现和识别意见领袖,在检测社交网络中种子节点影响力时,根据社交网络节点的度分布以及节点的度数与影响力的关联性等因素,采用在具有高度数的部分节点中检测种子节点并其计算影响力,只需在少部分影响力较大的节点中进行检测和计算,因此可以节省大量的盲目检测时间,降低种子节点影响力计算复杂度,提高了社交网络意见领袖识别效率。本专利技术解决其技术问题所采用的技术方案是:一种,其特点是包括以下步骤:(I)利用网络爬虫工具,从互联网中采集实际的社交网络数据。(2)根据社交网络特性,使用独立级联模型等信息传播模型对社交网络的信息传播过程进行建模分析。在信息传播模型中,输入社交网络数据以及r参数,其中r (O<r ^ I)为高度数节点占所有节点的百分比。(3)根据信息传播模型以及社交网络拓扑等信息,计算每个节点度数,并由大到小进行排序,选择排序前r的节 点形成新的节点集合。(4)在新的节点集合中检测种子节点,并使用子模函数计算种子节点影响力,将其中影响力最大的节点作为第一个种子节点。(5)在新的节点集合中检测余下的种子节点,同样使用子模函数计算种子节点影响力,在每次选择种子节点的过程中,只计算部分影响力大的节点,直到所有的种子节点选取完毕,形成一个按影响力大到小排列的种子节点集合。(6)从影响力排序的种子节点集合中,选取前η个种子节点,构成意见领袖集合,识别出社交网络中具有不同影响力或号召力的意见领袖。式中,O < η <集合中种子节点数目。所述r参数取值在0.01至0.2之间。本专利技术的有益效果是:由于通过检测社交网络中影响力最大的种子节点来发现和识别意见领袖,在检测社交网络中种子节点影响力时,根据社交网络节点的度分布以及节点的度数与影响力的关联性等因素,采用在具有高度数的部分节点本文档来自技高网
...

【技术保护点】
一种社交网络意见领袖识别方法,其特征在于包括以下步骤:(1)利用网络爬虫工具,从互联网中采集实际的社交网络数据;(2)根据社交网络特性,使用独立级联模型等信息传播模型对社交网络的信息传播过程进行建模分析;在信息传播模型中,输入社交网络数据以及r参数,其中r(0<r≤1)为高度数节点占所有节点的百分比;(3)根据信息传播模型以及社交网络拓扑等信息,计算每个节点度数,并由大到小进行排序,选择排序前r的节点形成新的节点集合;(4)在新的节点集合中检测种子节点,并使用子模函数计算种子节点影响力,将其中影响力最大的节点作为第一个种子节点;(5)在新的节点集合中检测余下的种子节点,同样使用子模函数计算种子节点影响力,在每次选择种子节点的过程中,只计算部分影响力大的节点,直到所有的种子节点选取完毕,形成一个按影响力大到小排列的种子节点集合;(6)从影响力排序的种子节点集合中,选取前n个种子节点,构成意见领袖集合,识别出社交网络中具有不同影响力或号召力的意见领袖;式中,0<n≤集合中种子节点数目。

【技术特征摘要】

【专利技术属性】
技术研发人员:张璐蔡皖东蔡霖彭冬王塑叶三成
申请(专利权)人:西安市烟草专卖局西北工业大学
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1