The invention discloses a fusion feature selection and random forest micro-blog forwarding behavior prediction method, based on the first, collecting data from the Internet, and clean up the generation of user information, the user information stored in the blog user database from the user database to extract user basic features, basic features, theme features blog posts. Based on the relative entropy calculation of active users, blog influence; secondly, through the Filter feature selection method and Wrapper feature selection method to select key features; finally, fusion anomaly detection and random forest algorithm, micro-blog forwarding behavior prediction according to the key features after screening, and the bag outside the data set of decision tree and error estimation the number of features in the random forest. The invention effectively solves the problems of the micro-blog forwarding behavior prediction, the characteristic selection arbitrariness and the low accuracy rate.
【技术实现步骤摘要】
基于融合特征筛选与随机森林的微博转发行为预测方法
本专利技术涉及社交网络转发行为预测方法,具体是一种基于融合特征筛选与随机森林的微博转发行为预测方法。
技术介绍
微博,即微型博客的简称,是一种通过关注机制分享实时信息的广播式的社交网络平台。其具有便捷性、背对脸、原创性、草根性的特点,同时具有反腐、打拐、营销、自媒体等效应。转发是微博的一个重要机制。微博网络中,信息的传播主要是通过微博的转发实现的。当微博上某用户发布一条博文,该博文会被推送给该用户的全部粉丝,而当其粉丝看到这条博文后,可以选择转发这条博文,系统会将此博文再推送给这个粉丝用户的全部粉丝。微博信息通过用户的转发行为在微博平台上实现了持续的传播。因此,研究微博的转发行为对研究信息在微博中传播,比如微博用户行为和兴趣、突发事件预测、控制敏感信息、网络舆情监控、产品营销、以及用户推荐等方面具有重要意义。在微博转发行为预测中,能采集到的特征众多,而数据集中存在本身与预测无关的特征以及冗余特征,如果选择了几乎不具辨别能力的特征,将导致设计的预测模型性能低下,但若是选择的特征具有充分辨别能力,则会极大提高预测模型的预测精度。近年来,针对微博转发行为预测准确率不高,特征选择任意性的问题,国内外学者展开了广泛和深入的研究。Petrovic等人通过人工实验证明了微博转发预测的可行性,然后利用改进的passive-aggressive算法预测转发,但正确率仅为46.6%。Morchid等人的研究表明选取的特征如果有较高的辨别能力,预测算法的性能会得到有效的提高。张旸等人提出了一种微博转发行为预测的方法。首先将微博转 ...
【技术保护点】
一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。
【技术特征摘要】
1.一种基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:包括以下步骤:步骤1:从互联网中采集数据,并对其进行清洁整理,生成用户信息、用户博文信息存放到用户数据库;步骤2:特征提取,从用户数据库中提取用户基本特征、博文基本特征、博文主题特征;步骤3:特征合成,基于提取的用户特征计算用户活跃度、博文影响力进行特征合成;步骤4:特征筛选:首先通过Filter特征选择法剔除所有特征中无关特征或噪声特征,去冗余、无效特征,缩减后续特征搜索规模;然后将选取后的特征通过Wrapper特征选择法继续进行优化选取;步骤5:对筛选后的特征进行参数调整和模型优化,利用袋外数据误差估计设置随机森林中决策树和特征数,通过实验设置异常检测的阈值;步骤6:依据优化后的特征组通过随机森林算法进行转发与否预测,再通过异常检测算法对预测结果进行修正,得到最终预测结果。2.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤1所述采集数据使用爬虫程序按照广度优先的策略,从一个特定的用户开始,编写网络爬虫,爬取用户基本信息,以及最近发表的N条微博,然后按该用户关注列表爬取其他用户数据,生成用户数据库并对数据库中的数据进行基础清洗,清洗后处理数据为所需格式。3.根据权利要求1所述的基于融合特征筛选与随机森林的微博转发行为预测方法,其特征在于:步骤3中,由于不同数据产生的方式不同,需要根据数据的特点进行相应处理,对于用户博文数量使用式(1)计算其日平均发微博数量,对于用户关注数、用户粉丝数则使用式(2)进行取对数处理,其中,xi表示用户i日平均发微博数量,Xi表示获取到的用户i的博文总数,Tlast,i表示获取到的用户i最新发微博日期,Tfirst,i表示获取到的用户i最早发微博日期,xi,j=log(Xi,j+1)(2)其中Xi,j是第j类特征的第i个数据,由于不同用户的粉丝数量和用户关注数量差别很大,所以使用式(2)将不同数量级的差别调整到合适的范围进行预处理;为了定量评测各个特征的重要性,采用相对熵来计算,特征越重要其相对熵越大;对于某特征ji,设它取值为x0,x1,…,xn,则该特征相对熵计算公式为式(3),其中cl代表类别,m代表类别数目,
【专利技术属性】
技术研发人员:黄文明,周先亭,孙晓洁,邓珍荣,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。