The invention provides a microblog popularity prediction method based on active learning, which includes the following steps: crawling relevant microblog data sets by using Sina Weibo API; initializing the unlabeled data sets by using K_Means algorithm; extracting features from training data to feature vectors; and training an improved model based on active learning of support vector machine according to extracted feature vectors. According to the training multi-classification model, samples with both uncertainty and diversity and representativeness are selected from the unmarked sample set; the selected samples are called information vectors and handed to the expert markers; the training data of the markers are added to the initial training set L, and the process is repeated until the performance of the model reaches a stable state to obtain the microblog popularity prediction model. The invention reduces the redundancy problem and the abnormal value problem, reduces the number of labels of training samples, and also makes a good prediction effect in the case of less training data.
【技术实现步骤摘要】
基于主动学习的微博流行度预测方法
本专利技术涉及一种预测方法,尤其涉及一种基于主动学习的微博流行度预测方法,属于机器学习领域。
技术介绍
微博是社交网络的典型代表,是人们可以获取、分享和交流信息的途径,微博的出现,正在悄然改变者现代人们的生活。微博吸引大量的用户和大众媒体平台的关注和使用,微博用户之间通过转发别人的微博,与自己的粉丝分享信息,该用户的粉丝也可以通过继续转发微博继续分享信息,这也使得消息通过微博平台可以大量并且迅速传播出去,实现信息共享。通过微博平台,人们可以与离自己生活圈子比较遥远的并且自己感兴趣的人进行社交,可以对自己喜欢或者不喜欢的人或事物发表自己的观点等等。这些海量的用户和数据蕴藏着大量丰富的信息,如何有效利用这些数据进行预测微博流行度是一个非常重要的研究方向。随着社交网络的迅速发展,尤其互联网新媒体的诞生,更是极大促进了信息的广泛传播,而微博的兴起,更是推动了自媒体时代的发展。消息可以通过微博平台迅速传播,尽早的对微博流行度进行预测既可以对消息进行实时推送,防止热点滞后的问题,也可以及时遏制微博中谣言的传播,能够及时有效的控制一些虚假的信息的网络传播并做出正确的舆论指引,以免造成严重的社会影响。尽早的预测微博流行度成于舆情预警和控制的重要部分。目前微博流行度的预测方法主要分为以下几种:(1)基于时间序列的方法。该方法研究微博流行度随着时间的增长而发生变化的规律,通过分析时间序列进行模型的建立,然后利用所得模型对微博流行度进行预测。(2)基于传染病模型的方法。传染病模型是生物学领域的研究方法,它将微博用户划分为易感状态S、感染状态I和 ...
【技术保护点】
1.一种基于主动学习的微博流行度预测方法,其特征是,包括如下步骤:(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集;(2)利用K‑Means算法将未标记数据集进行聚类预处理操作,从而初始化训练集L;(3)对训练数据进行特征提取,提取用户特征、微博特征和传播特征,最后得到特征向量;(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;(5)将筛选出的样本称为信息向量,交给专家进行标记;(6)将新标记的训练数据加入到初始训练集L中去,循环此过程,直到满足模型的性能达到稳定状态为止;(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。
【技术特征摘要】
1.一种基于主动学习的微博流行度预测方法,其特征是,包括如下步骤:(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集;(2)利用K-Means算法将未标记数据集进行聚类预处理操作,从而初始化训练集L;(3)对训练数据进行特征提取,提取用户特征、微博特征和传播特征,最后得到特征向量;(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;(5)将筛选出的样本称为信息向量,交给专家进行标记;(6)将新标记的训练数据加入到初始训练集L中去,循环此过程,直到满足模型的性能达到稳定状态为止;(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。2.根据权利要求书1所述的基于主动学习的微博流行度预测方法,其特征是,所述步骤(4)中多样性及代表性的计算模型如下:DR(x)=d(x)*(r(x))β其中,d(x)代表x的多样性,r(x)表示x的代表性,其中β控制代表性的相对重要性,如果β为0,相当于仅考虑多样性,将β设为1,表示考虑多样性和代表性同等重要;对于一个未标注样本可以通过距离来评估它的多样性:其中,dist(x*,x)是距离函数,L、U和Q分别是标注数据集、未标注数据集和查询样例;每次查询都是批量查询,本文将批量查询的大小设为K,通过余弦相似度计算上式dist(x*,x);代表性采用基于k近邻方法计算,公式如下:其中,表示一个未标注样本的k近邻的集合,x*∈V,sim(x*,x)是一个相似度函数,V为不确定性的样本集。3.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法,其特征是,所述步骤(4)中不确定性计算方法如下:首先根据初始样本训练集,得到SVM多分类模型,对于SVM分类器来说,查询策略使用的是距离SVM超平面越近的样本,置信度越低,不确定性也就越大;xq=min{d(xi)|xi∈U}其中,d(xi)表示样本xi到当前分类超平面的距离,U表...
【专利技术属性】
技术研发人员:杨静,徐美婷,张健沛,王勇,尚凡淑,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。