一种基于改进的PageRank的微博关键用户识别方法技术

技术编号:9596871 阅读:111 留言:0更新日期:2014-01-23 02:21
本发明专利技术公开了一种基于改进的PageRank的微博关键用户识别方法,包括输入微博信息数据,其中包括n条微博;对n条微博文本进行分词处理;根据分词结果建立倒排索引结构,便于根据指定关键词检索;根据检索到的相关微博提取其转发层级信息,构建加权有向图即转发网络G;将转发网络G划分为若干个极大连通子图Gi;利用并行化计算技术在每个子网络Gi应用PageRank算法;将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果;将排序结果选择前m条作为关键用户输出。本发明专利技术采用并行计算技术,在大数据环境下针对微博平台的动态转发网络进行排序计算,从而识别信息传播过程中的关键用户,应用于网络舆情分析等领域。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括输入微博信息数据,其中包括n条微博;对n条微博文本进行分词处理;根据分词结果建立倒排索引结构,便于根据指定关键词检索;根据检索到的相关微博提取其转发层级信息,构建加权有向图即转发网络G;将转发网络G划分为若干个极大连通子图Gi;利用并行化计算技术在每个子网络Gi应用PageRank算法;将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果;将排序结果选择前m条作为关键用户输出。本专利技术采用并行计算技术,在大数据环境下针对微博平台的动态转发网络进行排序计算,从而识别信息传播过程中的关键用户,应用于网络舆情分析等领域。【专利说明】—种基于改进的PageRank的微博关键用户识别方法
本专利技术涉及微博关键用户识别方法,特别是,属于复杂网络和数据挖掘领域,特别针对海量的微博数据分析。
技术介绍
微博平台关键用户是对信息的传播与扩散起到重要作用的用户。关键用户在大众传播效果的形成过程中起着重要的中介或过滤的作用,他们将信息扩散给受众,形成信息的级联传播。因此,关键用户的识别在信息的发现以及传播分析方面起到重要的作用,对于网络舆情分析等工作具有重大指导意义。然而,基于内容的关键用户识别,由于微博短文本的特点往往不够准确;基于结构的关键用户识别,即认为由用户构成的网络结构中关键用户均是重要节点,并且只考虑静态的关注粉丝关系网络,但由于相关度、用户活跃度等原因导致很多重要节点并不具备关键用户的特征。有鉴于此,本专利技术结合内容和网络结构两方面特点,利用微博平台中的转发信息构建主题相关的动态网络,将关键用户的识别转化为有向图上基于PageRank的排序问题。另外,考虑到微博平台具有海量数据的特点,动态生成的网络往往规模巨大,并且需要即时计算结果,因此传统的幂迭代算法在计算时间与空间上的消耗都难以满足需求。采用并行计算技术可以将大规模的计算分解到若干可扩展的计算节点上,降低了算法的时空复杂度以及对于单节点的计算能力的要求,特别适合在云计算平台上部署与应用。所以本专利技术采用MapReduce实现PageRank并行计算,在大数据环境下针对微博短文本信息进行挖掘,从而识别信息传播过程中的关键用户。
技术实现思路
本专利技术提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PageRank分别计算后进行组合提高计算效率和算法鲁棒性。,包括如下步骤:步骤1:利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。步骤2:将微博数据中的文本数据进行分词处理。步骤3:停用词移除、词干提取。步骤4:构建倒排索引结构,便于快速从关键词检索微博。步骤5:动态转发网络的构建,针对每一条转发的微博提取其转发层级信息,如图2所示,包括从原创作者到发表作者以及之间传播经过的用户,由此构建有向网络,节点为用户,边为转发的关系,这里是将信息流相反的方向作为边的方向,边的权重为转发出现的次数,方向为作者指向其转发的作者,最终形成的数据结构为加权有向图。步骤6:转发网络的分解,将转发网络G划分为若干个极大连通子图,对于每一个子网络Gi,赋予其权重,即Wi = V(Gi) /V(G),其中V(G)代表图G中的节点数。步骤7:并行迭代,求解子网络中每个节点的PageRank (pr)值。(I)初始阶段,对于每个子网络Gi的每一个节点V赋予初始PageRank值priQ(v)=1/V (Gi)0(2)迭代阶段,利用MapReduce并行技术计算子网中各节点PageRank值,其计算公式为prik = ((l-cDE/n+dADprm,其中k为当前迭代阶段;d为阻尼系数,一般设为0.85 ;η为网络中的节点数;Ε为全I向量夂为子网络Gi的邻接矩阵。迭代的终止条件可以为k达到指定的阈值或两次迭代产生的结果差值小于指定的阈值,即|prik-prik_J < ε。步骤8:排序结果的融合,将每个子网络Gi的排序结果pri;乘以其权重Wi,再将每个子网络的结果合并最后得到G的排序结果pr。步骤9:结果排序输出,将pr按照值排序,输出用户重要度排序列表,前m个用户即为关键用户。本专利技术利用动态转发关系构建用户网络,并将多个动态转发网络排序结果进行融合,大大提高大数据环境下微博平台关键用户识别的效率和质量,还具有很强的鲁棒性。本专利技术的方法能够克服短文本以及静态网络结构的缺点,能有效提高网络舆情分析的效率。【专利附图】【附图说明】图1为本专利技术的整体框架图。图2为转发信息示例图。图3为动态网络图。图4 为 MapReduce 不意图。【具体实施方式】下面将结合附图和具体实施实例对本专利技术做出进一步的说明。本专利技术提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心,采用MapReduce并行计算技术克服微博大数据的计算效率低的问题,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PageRank分别计算后进行组合提高结果的鲁棒性。一种基于改进的PageRank的微博平台关键用户识别方法,分为三个模块:数据收集与预处理模块,动态转发网络构建模块和PageRank计算与融合模块,其中数据收集与预处理模块包括数据收集、处理、停用词移除、提取词干和生成倒排索引等过程,动态转发网络构建模块利用微博信息提取转发关系构建转发网络,PageRank计算与融合模块包括转发网络划分、PageRank计算、计算结果融合以及最后的排序和输出,具体实施过程如下:1.利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。以新浪微博为例,本专利技术在通过API获取数据阶段可能需要的字段包括:【权利要求】1.基于改进的PageRank的微博关键用户识别方法,其特征在于,包括以下步骤: 步骤一,输入微博信息数据,其中包括η条微博的用户、文本、时间信息等; 步骤二,根据含有m个词汇的预设词库,对η条微博的文本进行分词处理; 步骤三,根据分词后的结果建立倒排索引结构,便于根据指定关键词检索; 步骤四,根据检索到的相关微博提取其转发层级信息,构建加权有向转发网络G ; 步骤五,将转发网络G划分为若干个极大连通子图Gi ; 步骤六,在各个子网络上分别采用并行计算技术,应用PageRank算法得出各个子网络的排序结果后再融合; 步骤七,排序结果输出。2.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,所述步骤一中的微博信息数据来源于在互联网、微博平台API上抓取一预设时间段内的微博信息数据本文档来自技高网
...

【技术保护点】
基于改进的PageRank的微博关键用户识别方法,其特征在于,包括以下步骤:步骤一,输入微博信息数据,其中包括n条微博的用户、文本、时间信息等;步骤二,根据含有m个词汇的预设词库,对n条微博的文本进行分词处理;步骤三,根据分词后的结果建立倒排索引结构,便于根据指定关键词检索;步骤四,根据检索到的相关微博提取其转发层级信息,构建加权有向转发网络G;步骤五,将转发网络G划分为若干个极大连通子图Gi;步骤六,在各个子网络上分别采用并行计算技术,应用PageRank算法得出各个子网络的排序结果后再融合;步骤七,排序结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:程工刘春阳张旭庞琳吴俊杰韩洋刘洪甫韩小汀
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1