【技术实现步骤摘要】
文章热度的预测方法和装置
本专利技术涉及文本分析
,尤其涉及一种文章热度的预测方法和装置。
技术介绍
互联网时代,每个人都可以在互联网上各抒己见。随之而来的问题是一些不法分子利用网络舆论导向来达到其个人目的。所以,需要对网络舆论进行一些监测及预测,防止网络舆论被不法分子利用。文章热度是衡量一篇网络文章、博客等各种网络文字在一段时间内的阅读、评论以及转发等情况,描述了网络文字的影响力,是舆情分析的重要一环。一般来说,常规的文章热度预测是通过搜集一段时间内的历史文章数据,根据历史数据进行大数据分析,使用回归算法对文章的热度进行模型拟合,将得到的模型用于新文章的热度预测分析。但是,由于文章内容的多样性,简单使用回归模型进行预测,获得的文章热度的准确度较低,不利于网络舆论的预测。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文章热度的预测方法。该方法在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别 ...
【技术保护点】
1.一种文章分类方法,其特征在于,包括:/n根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中是否出现;/n通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别。/n
【技术特征摘要】
1.一种文章分类方法,其特征在于,包括:
根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中是否出现;
通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量之前,还包括:
获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词;
其中,所述获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词包括:
获得所述用户在当前时刻之前的预定时间长度内发表的历史文章;
使用分词工具从所述历史文章中获取热度排名在预定名次之前的关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量之后,还包括:
对所述第一矢量进行降维处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一矢量进行降维处理,包括:
采用主成分分析方法对所述第一矢量进行降维处理。
5.根据权利要求3所述的方法,其特征在于,所述通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别之后,还包括:
通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
6.根据权利要求5所述的方法,其特征在于,所述通过聚类模型对所述第一矢量进行聚类判断之前,还包括:
生成所述聚类模型。
7.根据权利要求6所述的方法,其特征在于,所述生成所述聚类模型包括:
根据所述关键词,为所述用户在当前时刻之前的预定时间长度内发表的每篇历史文章生成对应的第二矢量,所述每篇历史文章对应的第二矢量的维度等于所述关键词的个数,所述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中是否出现;
对所述每篇历史文章对应的第二矢量进行聚类,生成所述聚类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
8.根据权利要求7所述的方法,其特征在于,所述通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测之前,还包括:
针对所述用户在...
【专利技术属性】
技术研发人员:许祥,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。