一种高精度微博转发预测方法技术

技术编号:15499777 阅读:199 留言:0更新日期:2017-06-03 21:56
本发明专利技术公开了一种高精度微博转发预测方法,属于微博预测和数据挖掘技术领域,它主要包括以下步骤:对相应的微博用户关系进行深度挖掘后建立微博用户关系网络;然后根据微博用户关系计算每个用户的权重,接着对待测微博进行微博转发预测。本发明专利技术利用带有权重的有向关系网络来刻画不同微博用户的转发可能性,通过建立转发关系有向图网络,计算相应的转发总数和关注者所占转发总数的比例,并给予相应的权重来刻画不同的转发概率,从而进行转发微博的预测,提高了预测精度,尤其是对于两层转发关系的微博转发网络,使预测精度得到了显著提高。

A high precision micro-blog forward prediction method

The invention discloses a high precision micro-blog forward prediction method, which belongs to the field of micro-blog prediction and data mining technology, it mainly includes the following steps: the micro-blog user relationship corresponding to the depth of excavation after the establishment of micro-blog user relationship network; then according to the weight of micro-blog users relationship calculation of each user, then to the micro-blog micro-blog forward prediction. The invention uses a weighted directed network to describe different micro-blog users forwarding possibilities, through the establishment of forwarding relationship directed graph network, calculate the corresponding number of forwarding and followers for forwarding the proportion of the total, and give the corresponding weights to depict different probability of forwarding, so as to improve the prediction of forwarding micro-blog. The prediction accuracy, especially for the micro-blog two layer forwarding forwarding network, the prediction accuracy has been greatly improved.

【技术实现步骤摘要】
一种高精度微博转发预测方法
本专利技术涉及微博预测和数据挖掘领域,具体是一种高精度微博转发预测方法。
技术介绍
微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、个人都有重要的意义。在现有的微博转发预测解决方案中,公开号为CN105550275A的中国专利公开了一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本专利技术在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。该专利技术通过训练微博数据并提取特征、建立模型的方法在一定程度上提高了微博转发预测的准确度,但是对于多级层的微博转发关系网,无法做到精确预测其中的级层转发情况,而且运算成本较高。公开号为CN103984701A的中国专利公开了一种微博转发量预测模型生成方法及微博转发量预测方法。微博转发量预测模型生成方法包括:获取训练数据,训练数据包括多条已知转发量的微博;以微博的转发量为依据,将微博分为3个以上转发量类别;提取每条微博的基本特征;建立基本特征与转发量类别之间的多分类模型;针对每一个转发量类别,建立基本特征与微博转发量之间的回归模型。微博转发量预测方法包括:提取待预测微博的基本特征;根据多分类模型及基本特征,判定待预测微博所属的转发量类别;获取转发量类别对应的回归模型;根据回归模型及基本特征,预测待预测微博的转发量。采用本专利技术的提供的方法特征提取简单且适合在大规模数据中使用。该专利与本专利技术采用的方法不同,且解决的问题不同。公开号为CN104915397A的中国专利公开了一种微博传播趋势预测方法及装置,用于解决现有技术中对微博传播趋势预测的方法准确性较低的问题,该方法包括:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,并对待预测微博数据进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;为分类后的待预测微博选择对应的回归模型,对待预测微博的传播趋势进行预测,回归模型为预先根据各类训练数据建立的回归模型,该方案提高了微博传播趋势预测的准确性。该专利与本专利技术采用的方法不同。在现有的微博预测解决方案中,一般的随机游走计算对于每个网络节点的选择权重都是一样的,而带权随机游走具备一定的偏向性。例如:如果一个人转发该用户的微博频率较高那么他下一次转发的可能性就更大,反之,则不是。所以,对于多种级层关系的微博转发关系网络,假设微博用户A发表了10篇微博,微博用户B转发了8篇,微博用户C转发了2篇。初始化节点权重:A=B=C=1/3,A的节点权重会以1:1的形式分给B,C,那么,如果A发布了一篇微博,将无法精确预测下一个转发者,因为概率都一样。综上所述,现有的微博预测方法存在精度低且运算成本高的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种高精度预测微博转发概率的方法,以至少实现提高预测精度、降低运算成本的效果。本专利技术的目的是通过以下技术方案来实现的:一种高精度微博转发预测方法,它包括以下步骤:S1:根据微博用户的转发关系建立有向图网络;S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;S6:重复执行S4步骤,直到每个节点的权重收敛;S5:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重;S7:获取待测微博的第一批关注者的权重w1,w2,…wn;S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测;S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。所述的步骤S6能够根据实际需求设置迭代次数直到满足实际情况需要或者通过设定一个节点变化率阈值Q3,如果每个节点的变化率都小于Q3,则停止迭代,进行该阶段的预测。所述步骤S3中的网络节点个数M为涉及到转发微博的关注者个数。所述步骤S4中,根据关注者转发的微博数占被关注者发布的被转发的微博总数的比例进行分配权重。所述的第一批关注者为直接关注首先发布微博的用户的关注者,第二批关注者为通过关注第一批关注者关注到了该转发微博,第三批关注者为通过关注第二批关注者关注到了该转发微博,依次类推,第K批关注者为通过第K-1批关注者关注到了该转发微博。所述的步骤S7中,第一批关注者的权重为w1,w2,…wn均为均分权重1/M。所述的预测涉及关注者和被关注者两个级层,每一个级层预测一次。所述的topK为按照从大到小排序的前K个项。本专利技术的有益效果是:本专利技术通过建立微博用户的转发关系有向图网络,然后计算待测微博用户的微博转发总数,利用权重关系来刻画不同情况下的转发概率,从而建立起基于权重关系的微博转发预测向量关系模型,然后对微博转发的次数、规模进行计算预测;通过设定程序迭代阈值,降低了运算成本;本专利技术尤其是对于两个级层的微博转发关系进行预测,显著提高了预测精度,将本专利技术运用到微博转发规模的预测系统中,可以提高预测效率,降低程序运算成本。附图说明图1为本专利技术的执行步骤流程图。具体实施方式下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。一种高精度微博转发预测方法,它包括以下步骤:S1:根据微博用户的转发关系建立有向图网络;如果A关注了B,那么就有一条从B出发指向A的有向边;如果A同时关注了B,C,那么就存在两条分别从B,C出发的边,共同指向A。S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为S3:统计有向网络中节点个数M,并给予每个节点1/M的权重。S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;这一过程只涉及发布微博的用户和关注该微博的第一批关注者。S6:重复执行S4步骤,直到本文档来自技高网
...
一种高精度微博转发预测方法

【技术保护点】
一种高精度微博转发预测方法,其特征在于,它包括以下步骤:S1:根据微博用户的转发关系建立有向图网络;S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n

【技术特征摘要】
1.一种高精度微博转发预测方法,其特征在于,它包括以下步骤:S1:根据微博用户的转发关系建立有向图网络;S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;S5:重复执行S4步骤,直到每个节点的权重收敛;S6:完成发布微博的用户和第一批关注者的节点权重更新以后,依次更新剩下的各批关注者的节点的权重;S7:获取待测微博的第一批关注者的权重w1,w2,…wn;S8:根据需要设定权重阈值Q1,判断第一批关注者的权重w1,w2,…wn是否超过阈值Q1,如果超过,则保留;如果没有超过,则去除;如果都不超过,则去掉topK个权重值后作为下一个阶段的传播预测;S9:重复步骤S8,根据需要设定一个关注者个数阈值Q2,直到关注者的权重都小于Q1且关注者的个数都小于Q2时,停止预测。2.根据权利要求1所述的一种高精度微博转发预测方法,其特征在于:所述的步骤S6能够设置迭代次数直到满足实际...

【专利技术属性】
技术研发人员:陈雁郭培伦葛忆李平胡栋朱婷婷
申请(专利权)人:西南石油大学四川数智汇通数据有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1