当前位置: 首页 > 专利查询>南京大学专利>正文

一种博客信息传播中识别关键博客集的方法技术

技术编号:6910092 阅读:221 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种可以快速、准确在博客信息传播中识别关键博客集的方法,其步骤是:1)以博客为单位收集和确定博客之间的关注关系和链接关系;2)以博客为节点构建博客网络图,图的边为博客间的关联;3)根据信息传播模型确定博客间关联(有向边)的权重;4)基于博客网络图计算每个博客对其他博客传播影响力的期望值;5)识别博客网络图中信息传播影响力最大的关键节点集合。本发明专利技术结合信息传播模型,应用博客之间的关联关系,通过计算信息传播期望,快速识别博客信息传播中关键的博客集合,以方便博客信息的监督。

【技术实现步骤摘要】

本专利技术涉及博客信息传播中关键博客节点集合的快速识别问题,特别针对互联网时代博客网站(尤其是微博)越来越普及,已经成为新闻和评论等信息传播的主流平台之一,需要有效监督以帮助互联网上信息的鉴别和控制。
技术介绍
博客(Weblog或blog)是以互联网为载体、同时由个人管理的信息共享平台。一个博客是一组包含文字、链接、图像等的网页集合,由博主(即注册在博客网站的用户)个人管理,不定期粘贴新文章(Posts)供人们浏览或转载。随着大量博客网站(如国外著名的Twitter,国内的新浪微博等)的涌现,博客已成为人们日常获取信息的主流平台之一。 微博(Micro-Blog)的出现更降低了博客对用户技术和知识背景的要求,使得越来越多的人们主动加入到博客信息平台,共享新闻和自己的见解。互联网上各种信息真假莫辩,这要求对博客信息传播做适当的监督和引导;由于博客数量庞大且更新迅速,不可能对每一个博客随时进行跟踪,这就增加了监督的难度。解决信息传播领域影响最大化问题,需要给定信息传播的网络图,设定信息传播模型,以寻找影响力最大的关键节点集合集合中的节点数量给定,且节点上的信息可以传播到图中最多的节点上。目前解决影响最大化问题的主流技术有两类其一是启发式方法; 其二是随机模拟方法。启发式方法根据节点的拓扑特征,包括度数和到其他节点的平均最短距离等,选择度数大或者平均最短距离小的节点作为影响力大的节点。启发式方法的优点是执行性能较高;缺点是所识别的节点准确率低,即实际不能达到最大的影响力,而且所适用的传播模型过于简单,与实际网络中的信息传播方式不相符合。随机模拟方法基于设定的信息传播模型,运用蒙特卡洛随机模拟,在模拟足够多次(如10000次以上)的基础上确定节点或节点集合所能够影响的范围,再基于贪婪方法选择边际增益最高(即额外影响的节点数量最多)的节点作为关键节点。模拟方法的优点是可以适用于不同的信息传播模型,且识别的关键节点集准确率较高;缺点是执行性能过低,适用于相对静态的信息传播网络。博客信息传播网络信息量大,更新迅速,信息传播形式多样,现有方法尚不能满足博客信息传播的关键节点集识别要求。
技术实现思路
本专利技术所要解决的技术问题是提供一种可以快速识别博客信息传播中关键博客节点集合的方法,该方法能够以较高的执行性能更准确的识别关键节点集,适于博客信息平台数据量大更新快的特点,计算简单,具有扩展性和适应性,可以有效辅助博客信息平台的监督。为实现上述目的,本专利技术采用如下的步骤1)以博客为单位收集和确定博主间的关联;2)以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;3)根据信息传播模型确定博客网络图中博客间的关联的权重;4)基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;5)根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。上述步骤1)中的关联包括关注关系以及博客中文章间的链接关系;而收集和确定博客间的关联的过程为首先从博客网站获取博客数据,为每一个博客(博主)赋予唯一标识,如Bi。然后获取博主的好友列表或关注列表;好友列表确定博主间双向的好友关系; 关注列表确定博主间单向的关注关系;好友关系可以表示为两个互为反向的关注关系;如果博主A关注博主Bj,则两者之间的关注关系标记为<Bj; Bi, f>。接下来获取博客&在1 日内粘贴的文章,参数t可设为20。对博客Bi中的每一篇文章Pix,如果Pix链接(引用) 了博客Bj中的文章Bjy,则认为博客Bi与博客Bj之间存在链接关系,标记为<Bj; Bi, At>, 其中At表示文章Bix粘贴日期与当前日期的差值。如果博客&多次引用博客h中文章, 则At为其中的最小值。上述步骤2)中构建博客网络图的流程是首先定义博客网络图G = E)为有向图,其中 = {历,战,...,仄}为博客集合,每个博客作为图中节点;E为博客之间关联(有向边)的集合。然后对博客群IB中任意两个博客Bi和Bp如果Bi和&间存在关注关系Bi, f>,或者存在链接关系At>,则在Bi和B」之间定义有向边 =Bj - Bi ;同理如果是 <Bi; Bj, f> 或者 <Bi; Bj, At〉,则定义有向边 e。=Bi — B」。上述步骤幻中确定博客网络图中边的权重。对边集E中的每一条有向边,分析 对应的关联关系。如果是链接关系<Bi; Bp At〉,则采用独立级联模型为边赋权重(其中链接关系权重的初始值λ可设为0. 1,指数参数α可设为0. 5)Wij = λe-a Δt如果是关注关系<Β” Bj, f>,则采用加权级联模型为边赋权重(其中集合Fj是博主h的关注集,|F」指集合的规模;关注关系权重的最大值δ可设为0.6)权利要求1.,其特征在于包含以下步骤1)以博客为单位收集和确定博主间的关联;2)以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;3)根据信息传播模型确定博客网络图中博客间的关联的权重;4)基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;5)根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。2.根据权利要求1所述的博客信息传播中识别关键博客集的方法,其特征在于步骤1) 中的关联包括关注关系以及博客中文章间的链接关系;而收集和确定博客间的关联过程为首先从博客网站获取博客数据,为每一个博客,即博主,赋予唯一标识,如Bi ;然后获取博主的好友列表或关注列表;好友列表确定博主间双向的好友关系;关注列表确定博主间单向的关注关系;好友关系可以表示为两个互为反向的关注关系;如果博主Bi关注博主Bj, 则两者间的关注关系标记为<BpBi,f> ;接下来获取博客Bi在1日内粘贴的文章,对博客Bi 中的每一篇文章批Pix,如果Pix链接了博客B」中的文章ΡΛ,则认为博客Bi与博客B」之间存在链接关系,标记为Bi, At>,其中At表示文章Pix粘贴日期与当前日期的差值;如果博客Bi多次引用博客h中文章,则At为其中的最小值。3.根据权利要求2所述的的博客信息传播中识别关键博客集的方法,其特征在于步骤2)中构建博客网络图的流程是首先定义博客网络图G= (B,均为有向图,其中 B = {Bu B2,..., 为博客集合,每个博客作为图中节点;E为博客之间关联的集合,即图中有向边的集合;然后对博客群B中任意两个博客Bi和Bp如果Bi和&间存在关注关系 〈BpByf〉,或者存在链接关系<Β」,Βρ At>,则在Bi和Bj之间定义有向边eji =Bj — Bi ;同理如果是<Bi; B」,0或者仂^8」,At〉,则定义有向边eij =Bi — B」。4.根据权利要求3所述的的博客信息传播中识别关键博客集的方法,其特征在于步骤3)中所述确定博客网络图中博客间的关联的权重,即确定博客网络图中有向边的权重,其分三种情况对边集E中的每一条有向边,分析6本文档来自技高网
...

【技术保护点】
1.一种博客信息传播中识别关键博客集的方法,其特征在于包含以下步骤:1)以博客为单位收集和确定博主间的关联;2)以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;3)根据信息传播模型确定博客网络图中博客间的关联的权重;4)基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;5)根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。

【技术特征摘要】

【专利技术属性】
技术研发人员:顾庆张尧汤九斌陈道蓄
申请(专利权)人:南京大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1