基于主动学习的微博流行度预测方法技术

技术编号:20623862 阅读:27 留言:0更新日期:2019-03-20 15:00
本发明专利技术提供一种基于主动学习的微博流行度预测方法,包括如下步骤:利用新浪微博API爬取相关微博数据集;利用K‑Means算法将未标记数据集初始化训练集L;对训练数据进行特征提取得到特征向量;根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;将筛选出的样本称为信息向量,交给专家标记;将标记的训练数据加入到初始训练集L中,循环此过程直到模型的性能达到稳定状态为止得到微博流行度预测模型。本发明专利技术减少了冗余性问题并降低了异常值问题,减少了训练样本的标记数量,同时也使得在训练数据少的情况下也得到很好的预测效果。

Prediction Method of Microblog Popularity Based on Active Learning

The invention provides a microblog popularity prediction method based on active learning, which includes the following steps: crawling relevant microblog data sets by using Sina Weibo API; initializing the unlabeled data sets by using K_Means algorithm; extracting features from training data to feature vectors; and training an improved model based on active learning of support vector machine according to extracted feature vectors. According to the training multi-classification model, samples with both uncertainty and diversity and representativeness are selected from the unmarked sample set; the selected samples are called information vectors and handed to the expert markers; the training data of the markers are added to the initial training set L, and the process is repeated until the performance of the model reaches a stable state to obtain the microblog popularity prediction model. The invention reduces the redundancy problem and the abnormal value problem, reduces the number of labels of training samples, and also makes a good prediction effect in the case of less training data.

【技术实现步骤摘要】
基于主动学习的微博流行度预测方法
本专利技术涉及一种预测方法,尤其涉及一种基于主动学习的微博流行度预测方法,属于机器学习领域。
技术介绍
微博是社交网络的典型代表,是人们可以获取、分享和交流信息的途径,微博的出现,正在悄然改变者现代人们的生活。微博吸引大量的用户和大众媒体平台的关注和使用,微博用户之间通过转发别人的微博,与自己的粉丝分享信息,该用户的粉丝也可以通过继续转发微博继续分享信息,这也使得消息通过微博平台可以大量并且迅速传播出去,实现信息共享。通过微博平台,人们可以与离自己生活圈子比较遥远的并且自己感兴趣的人进行社交,可以对自己喜欢或者不喜欢的人或事物发表自己的观点等等。这些海量的用户和数据蕴藏着大量丰富的信息,如何有效利用这些数据进行预测微博流行度是一个非常重要的研究方向。随着社交网络的迅速发展,尤其互联网新媒体的诞生,更是极大促进了信息的广泛传播,而微博的兴起,更是推动了自媒体时代的发展。消息可以通过微博平台迅速传播,尽早的对微博流行度进行预测既可以对消息进行实时推送,防止热点滞后的问题,也可以及时遏制微博中谣言的传播,能够及时有效的控制一些虚假的信息的网络传播并做出正确的舆论指引,以免造成严重的社会影响。尽早的预测微博流行度成于舆情预警和控制的重要部分。目前微博流行度的预测方法主要分为以下几种:(1)基于时间序列的方法。该方法研究微博流行度随着时间的增长而发生变化的规律,通过分析时间序列进行模型的建立,然后利用所得模型对微博流行度进行预测。(2)基于传染病模型的方法。传染病模型是生物学领域的研究方法,它将微博用户划分为易感状态S、感染状态I和恢复状态R三种,其中易感状态可以理解为在微博传播网络中从未得到微博信息的用户,感染状态为得到微博信息以一定的概率转发并分享信息的用户,恢复态则为得到微博信息但是不会进行转发分享的用户。此方法的主要通过将用户按照三种状态进行分类,然后数学模型进行建模描述每个状态中的用户数量的演化。(3)基于机器学习方法的分类或回归模型预测微博的流行度。此类方法利用已经标注好的微博数据作为训练数据集,然后通过研究影响微博流行度的各种因素训练机器学习模型,从而对微博进行流行度的预测。(4)基于时间序列的方法。但此方法没有考虑影响微博流行度的各种因素,而基于传染病模型的建立以多个理想化条件为基础,与真实的微博传播有差异。虽然基于机器学习的方法得到了更多学者的关注和研究。然而传统的机器学习方法也有很大的局限性,它需要大量的人工标注的数据集进行模型训练,这就需要投入的大量的成本、时间和人力资源来获得标注的数据集。随着互联网迅速发展,在网上很容易通过各种途径获得大量未标注的数据集,成本低廉且方便快捷,这些大量未标记的数据中也同样蕴含着有价值的信息。
技术实现思路
本专利技术的目的是为了减少样本标注数量、降低标注成本而提供一种基于主动学习的微博流行度预测方法。本专利技术的目的是这样实现的:一种基于主动学习的微博流行度预测,包括如下步骤:(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集;(2)利用K-Means算法将未标记数据集进行聚类预处理操作,从而初始化训练集L;(3)对训练数据进行特征提取,提取用户特征、微博特征和传播特征,最后得到特征向量;(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;(5)将筛选出的样本称为信息向量,交给专家进行标记;(6)将新标记的训练数据加入到初始训练集L中去,循环此过程,直到满足模型的性能达到稳定状态为止;(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。本专利技术还包括这样一些特征:1、所述步骤(4)中多样性及代表性的计算模型如下:DR(x)=d(x)*(r(x))β其中,d(x)代表x的多样性,r(x)表示x的代表性,其中β控制代表性的相对重要性,如果β为0,相当于仅考虑多样性,将β设为1,表示考虑多样性和代表性同等重要;对于一个未标注样本可以通过距离来评估它的多样性:其中,dist(x*,x)是距离函数,L、U和Q分别是标注数据集、未标注数据集和查询样例;每次查询都是批量查询,本文将批量查询的大小设为K,通过余弦相似度计算上式dist(x*,x);代表性采用基于k近邻方法计算,公式如下:其中,表示一个未标注样本的k近邻的集合,x*∈V,sim(x*,x)是一个相似度函数,V为不确定性的样本集;2、所述步骤(4)中不确定性计算方法如下:首先根据初始样本训练集,得到SVM多分类模型,对于SVM分类器来说,查询策略使用的是距离SVM超平面越近的样本,置信度越低,不确定性也就越大;xq=min{d(xi)|xi∈U}其中,d(xi)表示样本xi到当前分类超平面的距离,U表示未标注数据集;U是不确定性最大的样本,考虑将处于超平面两侧间隔边界中的未标注样本中选取3K个最具有不确定性的样本,将选取的这些样本用样本集V表示,其中K为类别数量;3、所述步骤(3)中用户特征包括:粉丝数、关注数、微博总数、认证状态;微博特征包含:是否包含标签、是否有提及、微博长度、实体词个数以及微博发布时间;转播特征包括:微博一小时内被转发数、一小时内的转发深度、一小时内的转发宽度、一小时内转发用户的粉丝数之和以及一小时内转发的认证用户数;4、所述步骤(1)中需要同时获得用户所发布和转发的所有微博信息、用户信息以及与其相关的关注关系信息;5、在所述步骤(2)中假设训练数据集为D={x1,x2,x3,x4,...xm},K-Means的目标函数为E,公式如下:通过最小化平方误差E进行聚类,ui是簇ci的均值向量,k值设置为未标记数据集中的类别数;6、在所述步骤(4)中多分类模型方法如下:通过用二分类SVM的输出来估计后验概率:pi=Prob(wi|x);i=1,...M通过成对耦合法作为一对一决策的规则,从而实现基于SVM的多分类器,假设样本中一共有Y个类,则一对一决策将会生成Y(Y-1)/2个两两对应的二分类器,通过该法则能够得到最终每个类的概率pi。与现有技术相比,本专利技术的有益效果是:(1)通过研究微博发布一小时之后进而预测微博的最终流行度,充分考虑了信息的实时性影响,解决了微博热点滞后性问题以及能够更加有效地进行舆情预警及控制工作。(2)针对传统机器学习方法研究微博流行度预测需要大量的人工标注的数据集进行模型训练,需要投入的大量的成本、时间和人力资源来获得标注的数据集的局限性,提出了基于SVM的主动学习的改进算法,不仅考虑查询样本的不确定性,还考虑多样性、代表性,解决了样本的冗余性问题并降低了异常值的可能性,使得主动学习查询的样本更佳,进行微博流行度预测时,降低训练数据的标注数量,节约成本,同时也使得本专利技术在训练数据少的情况下也得到很好的预测效果。(3)本专利技术引入主动学习机制并结合SVM模型,构建基于主动学习的微博流行度预测方法,此模型通过使用K-Means方法初始化训练集,解决了采用随机策略引起的初始分类器准确性不稳定的问题,同时不仅考虑查询样本的不确定性还结合样本多样性和代表性,减少了冗余性问题并降低了异常值问题,也减少了训练样本的标记数量,同时也本文档来自技高网
...

【技术保护点】
1.一种基于主动学习的微博流行度预测方法,其特征是,包括如下步骤:(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集;(2)利用K‑Means算法将未标记数据集进行聚类预处理操作,从而初始化训练集L;(3)对训练数据进行特征提取,提取用户特征、微博特征和传播特征,最后得到特征向量;(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;(5)将筛选出的样本称为信息向量,交给专家进行标记;(6)将新标记的训练数据加入到初始训练集L中去,循环此过程,直到满足模型的性能达到稳定状态为止;(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。

【技术特征摘要】
1.一种基于主动学习的微博流行度预测方法,其特征是,包括如下步骤:(1)利用新浪微博API采用关键词搜索的方法爬取相关微博数据集;(2)利用K-Means算法将未标记数据集进行聚类预处理操作,从而初始化训练集L;(3)对训练数据进行特征提取,提取用户特征、微博特征和传播特征,最后得到特征向量;(4)根据提取的特征向量训练基于支持向量机的主动学习的改进的模型,根据训练的多分类模型从未标记的样本集中选择出既有不确定性又具有多样性和代表性的样本;(5)将筛选出的样本称为信息向量,交给专家进行标记;(6)将新标记的训练数据加入到初始训练集L中去,循环此过程,直到满足模型的性能达到稳定状态为止;(7)利用训练好的基于主动学习的微博流行度预测模型对训练集进行预测。2.根据权利要求书1所述的基于主动学习的微博流行度预测方法,其特征是,所述步骤(4)中多样性及代表性的计算模型如下:DR(x)=d(x)*(r(x))β其中,d(x)代表x的多样性,r(x)表示x的代表性,其中β控制代表性的相对重要性,如果β为0,相当于仅考虑多样性,将β设为1,表示考虑多样性和代表性同等重要;对于一个未标注样本可以通过距离来评估它的多样性:其中,dist(x*,x)是距离函数,L、U和Q分别是标注数据集、未标注数据集和查询样例;每次查询都是批量查询,本文将批量查询的大小设为K,通过余弦相似度计算上式dist(x*,x);代表性采用基于k近邻方法计算,公式如下:其中,表示一个未标注样本的k近邻的集合,x*∈V,sim(x*,x)是一个相似度函数,V为不确定性的样本集。3.根据权利要求书1或2所述的基于主动学习的微博流行度预测方法,其特征是,所述步骤(4)中不确定性计算方法如下:首先根据初始样本训练集,得到SVM多分类模型,对于SVM分类器来说,查询策略使用的是距离SVM超平面越近的样本,置信度越低,不确定性也就越大;xq=min{d(xi)|xi∈U}其中,d(xi)表示样本xi到当前分类超平面的距离,U表...

【专利技术属性】
技术研发人员:杨静徐美婷张健沛王勇尚凡淑
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1