基于融合特征筛选与随机森林的微博转发行为预测方法技术

技术编号:15391735 阅读:48 留言:0更新日期:2017-05-19 04:55
本发明专利技术公开了一种基于融合特征筛选与随机森林的微博转发行为预测方法,首先,从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征,并基于相对熵计算用户活跃度、博文影响力;其次,通过Filter特征选择法与Wrapper特征选择法筛选出关键特征组;最后,融合异常检测与随机森林算法,依据筛选后的关键特征组进行微博转发行为预测,并利袋外数据误差估计设置随机森林中决策树和特征数。本发明专利技术有效解决了目前微博转发行为预测特征选择任意性,准确率不高的问题。

Prediction method of micro-blog forwarding behavior based on fusion feature selection and random forest

The invention discloses a fusion feature selection and random forest micro-blog forwarding behavior prediction method, based on the first, collecting data from the Internet, and clean up the generation of user information, the user information stored in the blog user database from the user database to extract user basic features, basic features, theme features blog posts. Based on the relative entropy calculation of active users, blog influence; secondly, through the Filter feature selection method and Wrapper feature selection method to select key features; finally, fusion anomaly detection and random forest algorithm, micro-blog forwarding behavior prediction according to the key features after screening, and the bag outside the data set of decision tree and error estimation the number of features in the random forest. The invention effectively solves the problems of the micro-blog forwarding behavior prediction, the characteristic selection arbitrariness and the low accuracy rate.

【技术实现步骤摘要】
基于融合特征筛选与随机森林的微博转发行为预测方法
本专利技术涉及社交网络转发行为预测方法,具体是一种基于融合特征筛选与随机森林的微博转发行为预测方法。
技术介绍
微博,即微型博客的简称,是一种通过关注机制分享实时信息的广播式的社交网络平台。其具有便捷性、背对脸、原创性、草根性的特点,同时具有反腐、打拐、营销、自媒体等效应。转发是微博的一个重要机制。微博网络中,信息的传播主要是通过微博的转发实现的。当微博上某用户发布一条博文,该博文会被推送给该用户的全部粉丝,而当其粉丝看到这条博文后,可以选择转发这条博文,系统会将此博文再推送给这个粉丝用户的全部粉丝。微博信息通过用户的转发行为在微博平台上实现了持续的传播。因此,研究微博的转发行为对研究信息在微博中传播,比如微博用户行为和兴趣、突发事件预测、控制敏感信息、网络舆情监控、产品营销、以及用户推荐等方面具有重要意义。在微博转发行为预测中,能采集到的特征众多,而数据集中存在本身与预测无关的特征以及冗余特征,如果选择了几乎不具辨别能力的特征,将导致设计的预测模型性能低下,但若是选择的特征具有充分辨别能力,则会极大提高预测模型的预测精度。近年来,针对微博转发行为预测准确率不高,特征选择任意性的问题,国内外学者展开了广泛和深入的研究。Petrovic等人通过人工实验证明了微博转发预测的可行性,然后利用改进的passive-aggressive算法预测转发,但正确率仅为46.6%。Morchid等人的研究表明选取的特征如果有较高的辨别能力,预测算法的性能会得到有效的提高。张旸等人提出了一种微博转发行为预测的方法。首先将微博转发转换为二元分类问题,然后使用支持向量机(SupportVectorMachine,SVM)算法对加权后的各特征进行训练,但该模型未考虑微博主题特征,且仅有85.9%的总体命中率。
技术实现思路
本专利技术的目的在于克服上述现有方法中存在的问题和不足,提供一种基于融合特征筛选与随机森林的微博转发行为预测方法,主要解决目前微博转发行为预测特征选择任意性,准确率不高的问题。实现本专利技术目的的技术方案是:一种基于融合特征筛选与随机森林的微博转发行为预测方法,包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。作为本专利技术的进一步改进,步骤1中,采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式。该方法不受微博API的功能限制,且速度快、可并行化处理。采集的数据至少包括:是否使用昵称、用户关注他人数量、用户性别、拥有粉丝的数量、教育经历、工作经历;博文发布时间、是否分享图片、是否为分享、是否为收藏、是否为转发以及具体博文内容。所述提取用户基本特征、博文基本特征、博文主题特征采用现有技术。所述博文基本特征提取采用LDA(LatentDirichletAllocation),根据隐含狄利克雷分布主题模型的生成过程,给定一篇文档集合,文档m中的第n个单词Wm,n的生成概率为:而LDA模型生成文档m,即产生全部Nm个单词的生成概率为:多篇文档共同组成语料库,其似然计算如下:LDA主题模型生成算法如下:将每个用户发布或转发的博文作为文本语料,将语料进行预处理后,即可用来训练博文主题模型。预处理过程:首先通过中文分词效果较好的“结巴分词”对语料进行分词处理;其次通过停用词字典去掉停用词,并去掉标点符号;然后将英语单词词干化,最后去掉低频词汇。设置超参数α,β,话题数K,构建主题模型,根据构建好的主题模型推断博文主题分布概率,将其作为转发预测模型特征之一。所述用户活跃度和博文影响力,主要体现了用户在微博社交网络上的活动状态。用户的活动行为对扩大其影响力具有积极作用,如添加新的关注、发布新的信息等。将用户关注他人数量、博文总量、粉丝数量特征结合考虑,按照不同的权重通过计算得到用户活跃度。作为本专利技术的进一步改进,步骤3中,由于不同数据产生的方式不同,需要根据数据的特点进行相应处理,对于用户博文数量使用式(1)计算其日平均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,其中,xi表示用户i日平均发微博数量,Xi表示获取到的用户i的博文总数,Tlast,i表示获取到的用户i最新发微博日期,Tfirst,i表示获取到的用户i最早发微博日期,xi,j=log(Xi,j+1)(2)其中Xi,j是第j类特征的第i个数据,由于不同用户的粉丝数量和用户关注数量差别很大,所以使用式(2)将不同数量级的差别调整到合适的范围进行预处理。为了定量评测各个特征的重要性,采用了比其他特征算法更简洁有效的相对熵来计算,它在特征选择中被广泛使用。特征越重要其相对熵越大,该特征相应的在接下来的加权模型中就会发挥更大的作用。对于某特征ji,设它取值为x0,x1,…,xn,则该特征相对熵计算公式为式(3),其中cl代表类别,m代表类别数目,不同特征对于一条微博是否会被转发有着显著不同的影响,为了得到更好的结果,需要考虑不同特征的差异,赋予各个特征不同的权重,对特征进行预处理后,就可以计算各类特征的权重,权重计算方法如式(4)所示,其中,w(ji)表示用户i的特征j的权重,D(ji)表示用户i的特征j的相对熵,其计算方法如式(3),DMEAN表示所有特征的平均相对熵,式中的开平方是为了缓和该特征对加权机制的影响;给定用户v的日均发微博数量Xwb、粉丝数量Xfans、关注数量Xfollow以及对应特征的权重w(wb)、w(fan)、w(fol),用户v的活跃度ActiveValue为:博文影响力体现了用户博文在微博平台上的感召力与说服力,影响力大小会对转发行为产生影响。博文影响力与用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量有密切的关系,将这些特征按照不同权重通过计算得到博文影响力。所述博文影响力的计算方法:首先,需要对数据根据其特点进行相应预处理,将用户粉丝数量,博文平均被评论数量、被转发数量、被点赞数量通过式(2)处理,将较大数量级的差别调整到一个合适的范围内;其次,基于相对熵可以定量分析出各特征关键性的区分度,对不同的特征,需要采用不同的权重,以更好地区分其关键性,通过式(3)计算相对熵,通过式(4)计算出不同特征的权重;最后,给定用户v的粉丝数量Xfans、博文的平均被评论数量Xcom本文档来自技高网
...
基于融合特征筛选与随机森林的微博转发行为预测方法

【技术保护点】
一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。

【技术特征摘要】
1.一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。2.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤1所述采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式。3.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤3中,由于不同数据产生的方式不同,需要根据数据的特点进行相应处理,对于用户博文数量使用式(1)计算其日平均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,其中,xi表示用户i日平均发微博数量,Xi表示获取到的用户i的博文总数,Tlast,i表示获取到的用户i最新发微博日期,Tfirst,i表示获取到的用户i最早发微博日期,xi,j=log(Xi,j+1)(2)其中Xi,j是第j类特征的第i个数据,由于不同用户的粉丝数量和用户关注数量差别很大,所以使用式(2)将不同数量级的差别调整到合适的范围进行预处理;为了定量评测各个特征的重要性,采用相对熵来计算,特征越重要其相对熵越大;对于某特征ji,设它取值为x0,x1,…,xn,则该特征相对熵计算公式为式(3),其中cl代表类别,m代表类别数目,

【专利技术属性】
技术研发人员:黄文明周先亭孙晓洁邓珍荣
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1