一种微信公众号文章阅读量的预测方法及系统技术方案

技术编号:24459320 阅读:59 留言:0更新日期:2020-06-10 16:31
本发明专利技术涉及一种微信公众号文章阅读量的预测方法及系统,其特征在于,包括以下内容:1)在微信文章数据集上分别训练XGBoost分类模型和XGBoost回归模型;2)获取待测文章的文章特征;3)采用训练后的XGBoost分类模型,根据待测文章的文章特征,判断待测文章是否为超级文章,若是,则该待测文章的阅读量预测值为超过10万;若不是,则进入步骤4);4)采用训练后的XGBoost回归模型,根据待测文章的文章特征,确定待测文章的阅读量预测值,本发明专利技术能够减少作者的文章修改时间、提高作者和相关工作人员的工作效率,并获得更高的阅读量,可以广泛应用于数据预测领域中。

A prediction method and system for reading volume of WeChat official account

【技术实现步骤摘要】
一种微信公众号文章阅读量的预测方法及系统
本专利技术涉及一种预测方法,具体是关于一种微信公众号文章阅读量的预测方法及系统。
技术介绍
自从进入到网络2.0时代,对于网络上某些特定内容受欢迎程度的研究工作逐渐增多,这些工作的研究对象主要包括网上新闻、网上视频以及用户在社交平台上发表的内容。对于网上新闻而言,现有的工作通常将评论数作为受欢迎程度的衡量标准,且将预测评论数的任务分为先判断这个新闻是否能够收到评论、再基于此定性预测评论数的高低两个阶段。为更进一步地估计评论数,新闻发布后短时间内观察到的评论数被用于预测后续可能获得的总评论数的分布情况。对于网上视频来说,大部分工作以其播放量作为衡量标准,且利用历史的播放量信息来对当前视频进行预测。此外,还有一些工作关注于用户在社交平台上发布的内容,例如Facebook、Twitter等,通过社交平台上的好友关系和社交网的网络结构,对发布内容的受关注程度进行预测。到目前为止,这些现有工作取得一定的效果。然而,现有的预测某特定内容受欢迎程度的方法主要关注于网页新闻、视频和用户在社交平台上发布的内容,无法运用到在微信公众号文章阅读量的预测,主要体现在:1)微信公众号文章阅读量的预测一般希望在文章发布前即能预测其阅读量,但是目前的方法几乎均是在内容发布后展开预测,并需要使用到内容发布后观测到的信息;2)在能够获得的数据中,无法得到微信用户与公众号之间的关联关系,用户的社交好友关系也是未知的,因此无法根据算法构建一个社交关系网络来对阅读量进行预测。因此,需要一种仅基于有限的信息在文章发布前对阅读量进行预测的方法。
技术实现思路
针对上述问题,本专利技术的目的是提供一种在文章发布前对阅读量进行预测的微信公众号文章阅读量的预测方法及系统。为实现上述目的,本专利技术采取以下技术方案:一种微信公众号文章阅读量的预测方法,其特征在于,包括以下内容:1)在微信文章数据集上分别训练XGBoost分类模型和XGBoost回归模型;2)获取待测文章的文章特征;3)采用训练后的XGBoost分类模型,根据待测文章的文章特征,判断待测文章是否为超级文章,若是,则该待测文章的阅读量预测值为超过10万;若不是,则进入步骤4);4)采用训练后的XGBoost回归模型,根据待测文章的文章特征,确定待测文章的阅读量预测值。进一步地,所述步骤1)的具体过程为:1.1)根据文章的发布时间,将微信文章数据集划分为训练集、验证集和测试集,且每一集合之间没有重叠;1.2)确定微信文章数据集中各微信文章的样本正负,其中,微信文章为超级文章,则表示为正样本;微信文章为非超级文章,则表示为负样本;1.3)在微信文章数据集上训练XGBoost分类模型;1.4)在微信文章数据集上训练XGBoost回归模型。进一步地,所述步骤1.3)的具体过程为:1.3.1)构建XGBoost分类模型,其中,XGBoost分类模型的分类任务采用的评价指标包括准确率、精确率、召回率和F1分数;1.3.2)通过训练集中表示为正样本的微信文章和部分表示为负样本的微信文章训练XGBoost分类模型;1.3.3)在验证集调整XGBoost分类模型的参数,在测试集测试XGBoost分类模型,得到训练后的XGBoost分类模型。进一步地,所述步骤1.4)的具体过程为:1.4.1)构建XGBoost回归模型,其中,XGBoost回归模型的评价指标包括平均绝对误差MAE、均方根误差RMSE和决定系数R2:其中,yi表示第i篇微信文章的目标值;表示第i篇微信文章的预测值;n表示微信文章的数量;其中,表示目标值的平均值;Variance表示所有微信文章目标值的方差;1.4.2)将训练集中微信文章的文章特征作为样本、微信文章的阅读量作为标签训练XGBoost回归模型;1.4.3)在验证集调整XGBoost回归模型的参数,在测试集测试XGBoost回归模型,得到训练后的XGBoost回归模型。进一步地,所述文章特征包括历史信息特征,历史信息特征包括待测文章所属公众号的历史发文频率和历史阅读量,其中:历史发文频率为在时间t内公众号o在文章a前的发文总数;历史阅读量为时间t内公众号o所获阅读量的总数、平均数、方差和中位数。进一步地,所述文章特征包括标题特征,标题特征包括标题基本组成、情感属性和标题实体,其中:标题基本组成为文章标题的标题长度、单词个数和数字个数;情感属性为采用情感分类模型对文章的标题进行情感分类得到的情感属性,包括积极、消极和中性;标题实体为文章标题中出现的地名、人名和机构名。进一步地,所述文章特征包括正文特征,正文特征包括正文基本组成、正文实体、组成元素、平均段落长度、文章所属话题,其中:正文基本组成为文章正文的文章长度、单词个数和数字个数;正文实体为文章正文中出现的地名、人名和机构名;组成元素为文章正文的段落数、图片数、网页链接数和音乐视频数;平均段落长度为文章正文中各段落的平均词数;文章所属话题为采用分类模型对文章正文的主题进行分类得到的话题类别。进一步地,所述文章特征包括“标题党”特征,“标题党”特征包括标题是否含糊不清、标点符号、疑问词数、指代词数、程度副词数和情感词数,其中:标题是否含糊不清为文章标题中是否存在不明确的代词;标点符号为文章标题中标点符号“?”和“!”的个数;疑问词数、指代词数、程度副词数和情感词数为文章标题中出现的疑问词数、指代词数、程度副词数和情感词数。进一步地,所述文章特征包括时间特征,时间特征包括文章发布时间、时间阅读量和抓取间隔,其中:文章发布时间为文章发布的包括月、日、时间和星期数;时间阅读量为文章发布时间同一小时和星期数的平均阅读量和方差;抓取间隔为文章的发布时间与抓取阅读量时间之间的时间间隔。一种微信公众号文章阅读量的预测系统,该系统包括:模型训练模块,用于在微信文章数据集上分别训练XGBoost分类模型和XGBoost回归模型;数据获取模块,用于获取待测文章的文章特征;超级文章预测模块,用于采用训练后的XGBoost分类模型,根据待测文章的文章特征,判断待测文章是否为超级文章;阅读量预测模块,用于采用训练后的XGBoost回归模型,根据待测文章的文章特征,确定待测文章的阅读量预测值。本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术通过XGBoost模型,根据待测文章的文章特征,在文章发布前即能得到阅读量的预测值,为文章的作者提供修改意见,在提高文章作者工作效率的同时,能够获得更多的阅读量。2、本专利技术将文章阅读量的预测分为两部分,包括预测文章是否为超级文章和对非超级文章的阅读量的精确预测,对于是否为超级文章的预测采用XGBoost分类模型,对于非超级文章的阅读量的精确预测采用XGBoost回归模型,根据获取的待测文章的文章特征,有效地对文章的结构、内容等各个方面进行详细分析,确定待测文章的阅读量预测值,进而能够为作者修改文章提供一定的指导意见,提高作者和相关工作人员的工作效率,并获得更高的本文档来自技高网
...

【技术保护点】
1.一种微信公众号文章阅读量的预测方法,其特征在于,包括以下内容:/n1)在微信文章数据集上分别训练XGBoost分类模型和XGBoost回归模型;/n2)获取待测文章的文章特征;/n3)采用训练后的XGBoost分类模型,根据待测文章的文章特征,判断待测文章是否为超级文章,若是,则该待测文章的阅读量预测值为超过10万;若不是,则进入步骤4);/n4)采用训练后的XGBoost回归模型,根据待测文章的文章特征,确定待测文章的阅读量预测值。/n

【技术特征摘要】
1.一种微信公众号文章阅读量的预测方法,其特征在于,包括以下内容:
1)在微信文章数据集上分别训练XGBoost分类模型和XGBoost回归模型;
2)获取待测文章的文章特征;
3)采用训练后的XGBoost分类模型,根据待测文章的文章特征,判断待测文章是否为超级文章,若是,则该待测文章的阅读量预测值为超过10万;若不是,则进入步骤4);
4)采用训练后的XGBoost回归模型,根据待测文章的文章特征,确定待测文章的阅读量预测值。


2.如权利要求1所述的一种微信公众号文章阅读量的预测方法,其特征在于,所述步骤1)的具体过程为:
1.1)根据文章的发布时间,将微信文章数据集划分为训练集、验证集和测试集,且每一集合之间没有重叠;
1.2)确定微信文章数据集中各微信文章的样本正负,其中,微信文章为超级文章,则表示为正样本;微信文章为非超级文章,则表示为负样本;
1.3)在微信文章数据集上训练XGBoost分类模型;
1.4)在微信文章数据集上训练XGBoost回归模型。


3.如权利要求2所述的一种微信公众号文章阅读量的预测方法,其特征在于,所述步骤1.3)的具体过程为:
1.3.1)构建XGBoost分类模型,其中,XGBoost分类模型的分类任务采用的评价指标包括准确率、精确率、召回率和F1分数;
1.3.2)通过训练集中表示为正样本的微信文章和部分表示为负样本的微信文章训练XGBoost分类模型;
1.3.3)在验证集调整XGBoost分类模型的参数,在测试集测试XGBoost分类模型,得到训练后的XGBoost分类模型。


4.如权利要求2所述的一种微信公众号文章阅读量的预测方法,其特征在于,所述步骤1.4)的具体过程为:
1.4.1)构建XGBoost回归模型,其中,XGBoost回归模型的评价指标包括平均绝对误差MAE、均方根误差RMSE和决定系数R2:



其中,yi表示第i篇微信文章的目标值;表示第i篇微信文章的预测值;n表示微信文章的数量;






其中,表示目标值的平均值;Variance表示所有微信文章目标值的方差;
1.4.2)将训练集中微信文章的文章特征作为样本、微信文章的阅读量作为标签训练XGBoost回归模型;
1.4.3)在验证集调整XGBoost回归模型的参数,在测试集测试XGBoost回归模型,得到训练后的XGBoost回归模型。


5.如权利要求1所述的一种微信公众号文章阅读量的预测方法,其特征在于,所述文章特征包括历史信息特征,历史信息特征包括待测文...

【专利技术属性】
技术研发人员:窦志成文继荣
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1