一种面向微博的特定倾向的高影响力用户群发现方法技术

技术编号:8626135 阅读:217 留言:0更新日期:2013-04-25 23:15
本发明专利技术涉及社会化媒体数据分析与挖掘技术领域,提供了一种面向微博的特定倾向的高影响力用户群发现方法,该方法包括:S1、对微博网站上的数据进行抓取;S2、对获取的数据进行分析,找出每条微博所对应的不同主题;S3、建立新的微博网络拓扑结构;S4、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;S5、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。本发明专利技术综合考虑了微博的拓扑结构和微博的内容及主题,能反映真实情况。

【技术实现步骤摘要】

本专利技术涉及社会化媒体数据分析与挖掘
,特别是涉及。
技术介绍
微博,已经成为人们进行社交的一种重要平台与媒介之一,中国有超过4亿的微博用户,而Twitter用户更是超过5亿,信息日发送量则超过2亿,成为仅次于Facebook的第二大社交网站。近年来,微博成为无数热门话题与潮流的发源地。借助一个有效的传播模型来找到高影响力用户群,对企业来说,可以以最小的成本来获取最大的广告传播范围; 而对政府来说,则可以有效的对微博中的部分信息的传播进行一定的控制。因此,研究微博中的信息传播或影响力传播,是一个具有广阔的应用前景的研究课题,引起学术界和产业界的广泛关注。现阶段对于用户影响力的研究主要分为两个不同的方向。一种是基于病毒式营销的思想,认为每个用户都能对其相邻用户(在微博中则为“关注”的关系)施加一定的影响。 基于本思想,David Kempe等学者提出两种基础的传播模型Independent Cascade (IC)模型与Linear Threshold (LT)模型,IC模型认为每个用户间具有一个相同的且为常数的传播概率P,即当t-1时刻时,用户传播(转发和评论)了信息(微博),则在t时刻,其邻点用户传播该信息的概率为P。而LT模型则认为相邻用户间具有不同的影响力,而每个用户需要其邻点施加一定的影响力(超过阀值)后才会传播信息,即对某一特定的信息而言,当t-1 时刻,某用户的传播了该信息的邻点用户对于该用户的影响力超过了其自身的阀值,则在t 时刻,该用户一定会传播该信息。借助相关算法(如贪婪算法或启发式算法),则可以找到使影响力最大的η个用户。另一种则是单纯分析用户的影响力,通常基于PageRank思想并进行一定的改良, 基本思想是如果某用户能影响(连接)到影响力较大的用户,那该用户的影响力也较大。该方法能很好地在MapReduce模型上高效实现,在较短的时间内即可计算出所有用户的影响力。但与前一种方法不同的是,由于影响力最大的数个用户间可能存在大部分的影响范围重叠,因此,该方法无法解决影响力最大化问题,而只能根据计算出的影响力对用户进行排序。从微博的运作方式上来看,IC模型能够较好的模拟真实的传播过程。用户每一次对微博的传播在网络拓扑结构中都可以表现为一种对其自身周围所有邻点的广播,而这每一次广播都有可能(一定概率)对邻点进行影响,即邻点可以选择传播该微博或者是忽略。 但其不足的地方在于,传统的IC模型认为所有用户之间的传播概率均为一恒定的常数,这一假设过于简单并与现实大相径庭。现实中,不同的用户具有不同的喜好,他们对于微博的转发或者评论多数出于他们对于该微博内容的关注,因此,不同的用户之间对于不同内容的微博将具有不同的传播概率。基于对真实微博数据的观测,我们发现,一条微博的传播范围与其中参 与的活跃用户有一定关系,也就是说,通过活跃用户传播的信息更容易被其相邻用户所传播。显然,传统的传播模型无法模拟真实网络中的信息传播方式。综上所述,当前对复杂微博网络中的高影响力用户群发现的研究,仅仅考虑了网 络的拓扑结构,并没有分析影响力与微博内容或主题之间的关系,因此,相关现有技术不能 准确反映真实数据中的传播模式,导致该方法具有很大的局限性,不能投入应用。因此,现 有技术存在一定的缺陷,而有待于改进和发展。
技术实现思路
本专利技术提供了,旨在解决现 有的高影响力用户群发现方法忽略了影响力与微博内容或主题之间的关系,不能反映真实 情况这一技术问题。本专利技术采用如下技术方案,包括S1、对微博网站上的数据进行抓取;S2、对获取的数据进行分析,找出每条微博所对应的不同主题;S3、建立新的微博网络拓扑结构;S4、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;S5、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。优选地,在所述步骤SI中,抓取的数据包括用户ID、用户名、微博内容、微博序号 和参与转发与评论的用户ID ;其中所述微博序号为根据获取该微博的时间给予该微博的 序号,不同的微博对应不同的序号。优选地,所述步骤SI具体为抓取一设定时间段内的数据,并忽略其中参与人数较少的数据,保留参与人数较 多的数据。优选地,所述设定时间段为近I年,所述参与人数较多的数据为转发与评论数量 之和大于30的微博。优选地,所述步骤S2具体为基于LDA模型计算微博的主题。优选地,所述LDA模型不考虑语法问题,对于每一篇微博视为一个词频向量,将 文本信息转换为数字信息;通过提取微博中的互异单词,并删除其中的停用词,推断出“微 博-主题”的分布与“主题一单词”的分布;根据这两个分布,判断微博作者以及传播者所感 兴趣的主题与各主题所占的比例,作为分析用户的特定倾向;考虑到每条微博所包含的内 容较少,取其比例最高的前三项主题作为微博内容的特定倾向。优选地,所述步骤S3具体为取消原有微博网络中用户间关注关系的连接结构,根据步骤SI获取的数据中的 转发与评论的关系,重新建立微博网络拓扑结构。优选地,所述步骤S4具体包括S41、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博_用户”关系 矩阵、“微博一主题”关系矩阵和“用户-主题”关系矩阵;S42、通过所述关系矩阵得到用户的特定倾向与活跃程度,并根据步骤S3得到的 新的微博网络拓扑结构,计算出两用户间的传播概率。优选地,所述步骤S41具体包括S411、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户”关系矩阵和“微博一主题”关系矩阵;其中,所述“微博一用户”关系矩阵中,列为微博序号,行为用户ID,该矩阵表示用户是否在该微博的传播中出现;所述“微博一主题”关系矩阵中,列为微博序号,行为不同的微博主题,该矩阵表示微博内容所对应的不同主题所占的比重;S412、将“微博一用户”关系矩阵和“微博一主题”关系矩阵相乘,得到“用户一主题”关系矩阵,其中各项数值表示用户对应不同主题的频数,并可以依次计算出不同主题所对应的频率;对于每个用户,其频数之和表现为该用户的活跃程度,对应主题的频率则表现为其特定倾向;所述步骤S42具体为结合所述频数和频率,并根据步骤S3得到的新的微博网络拓扑结构,计算出两用户间的传播概率。优选地,在所述步骤S42中,以用户的活跃程度作为基础传播概率,以用户的特定倾向作为调整权重值,所述传播概率为传播概率乘以调整权重值。优选地,所述步骤S5具体为根据得到的传播概率,采用CELF贪婪算法,找出面向特定主题的具有最大影响力的用户群;所述CELF贪婪算法的计算步骤为S51、设立一种子集合A,所述A为空集合;S52、对于任意节点S,计算δ s (A) =R(AU {s})-R(A),其中s e V_A,V为新的微博网络拓扑结构中所有节点的集合,R(A)为集合A中节点能够传播到的范围,Ss(A)为将任一点s加入集合A后的边际影响力增加;S53、对所有的δ s(A)按降序排列,选取第一位的节点加入集合A,并将其从队列中删去;S54、根据排列顺序,重新计算第一位的节点的δ s⑷值,并加入队列中排序;S55、判断该节点是否依旧排在第一位,若是,执行步骤S56 ;否则,返回执行步骤 S54 ;S56、选取该节点加入集合A,并将其从队列中删去;S57、判断集本文档来自技高网
...

【技术保护点】
一种面向微博的特定倾向的高影响力用户群发现方法,其特征在于,包括:S1、对微博网站上的数据进行抓取;S2、对获取的数据进行分析,找出每条微博所对应的不同主题;S3、建立新的微博网络拓扑结构;S4、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;S5、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。

【技术特征摘要】
1.一种面向微博的特定倾向的高影响力用户群发现方法,其特征在于,包括51、对微博网站上的数据进行抓取;52、对获取的数据进行分析,找出每条微博所对应的不同主题;53、建立新的微博网络拓扑结构;54、分析用户的特定倾向与活跃程度,计算出用户间的传播概率;55、根据得到的传播概率,找出面向特定主题的具有最大影响力的用户群。2.根据权利要求1所述的方法,其特征在于,在所述步骤SI中,抓取的数据包括用户 ID、用户名、微博内容、微博序号和参与转发与评论的用户ID ;其中所述微博序号为根据获取该微博的时间给予该微博的序号,不同的微博对应不同的序号。3.根据权利要求1所述的方法,其特征在于,所述步骤SI具体为抓取一设定时间段内的数据,并忽略其中参与人数较少的数据,保留参与人数较多的数据。4.根据权利要求3所述的方法,其特征在于,所述设定时间段为近I年,所述参与人数较多的数据为转发与评论数量之和大于30的微博。5.根据权利要求1所述的方法,其特征在于,所述步骤S2具体为基于LDA模型计算微博的主题。6.根据权利要求1所述的方法,其特征在于,所述LDA模型不考虑语法问题,对于每一篇微博视为一个词频向量,将文本信息转换为数字信息;通过提取微博中的互异单词,并删除其中的停用词,推断出“微博一主题”的分布与“主题-单词”的分布;根据这两个分布,判断微博作者以及传播者所感兴趣的主题与各主题所占的比例,作为分析用户的特定倾向; 取其比例最高的前三项主题作为微博内容的特定倾向。7.根据权利要求1所述的方法,其特征在于,所述步骤S3具体为取消原有微博网络中用户间关注关系的连接结构,根据步骤Si获取的数据中的转发与评论的关系,重新建立微博网络拓扑结构。8.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括541、根据步骤SI抓取的数据和步骤S2获得的分析结果,建立“微博一用户”关系矩阵、 “微博一主题”关系矩阵和“用户一主题”关系矩阵;542、通过所述关系矩阵得到用户的特定倾向与活跃程度,并根据步骤S3得到的新的微博网络拓扑结构,计算出两用户间的传播概率...

【专利技术属性】
技术研发人员:刘斯尧赵中英冯圣中
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1