一种新闻客户端活跃度第三方预测方法技术

技术编号:21914175 阅读:48 留言:0更新日期:2019-08-21 12:29
本发明专利技术公开了一种新闻客户端活跃度第三方预测方法,包括利用爬虫获取各新闻客户端的新闻内容;根据获取的新闻内容,定义发稿量、总阅读数、APP阅读数平衡因子、单位时间内发稿数曲率、单位时间内阅读数曲率、稿件评论数和单位时间内评论数;根据定义的参数,采用活跃度数值公式,预测各新闻客户端的活跃度。优点是:使用该方法能够平滑准确依据不同客户端进行自适应参数调节,避免了因单一客户端统计数据横向对比度无法衡量的问题;采用了基于机器学习方法,实现了新闻客户端活跃度预测,方便新闻工作人员、广告投放人员、舆情工作人员进一步利用预测结果,进行工作效果提前预判。

A Third Party Prediction Method for News Client Activity

【技术实现步骤摘要】
一种新闻客户端活跃度第三方预测方法
本专利技术涉及统计学领域,尤其涉及一种新闻客户端活跃度第三方预测方法。
技术介绍
新闻资讯作为互联网行业最受关注的行业应用之一,新闻客户端更是层出不穷,为了评估新闻媒体影响力,所在新闻客户端客户的评估,在当前互联网下更是重中之重。各家新闻客户端的活跃用户数的单向宣布方式,对上下游使用者来说,缺乏一个公开、统一的衡量尺度。
技术实现思路
本专利技术的目的在于提供一种新闻客户端活跃度第三方预测方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种新闻客户端活跃度第三方预测方法,包括如下步骤,一种新闻客户端活跃度第三方预测方法,包括如下步骤,S1、利用爬虫获取各新闻客户端的新闻内容,并根据不同新闻客户端发帖数量的差异,设置各新闻客户端的采样常量,且所有的新闻客户端都遵循同一个采样周期;S2、根据获取的新闻内容,定义发稿量、总阅读数、APP阅读数平衡因子、单位时间内发稿数曲率、单位时间内阅读数曲率、稿件评论数和单位时间内评论数;S3、根据步骤S2中定义的参数,采用活跃度数值公式,预测各新闻客户端的活跃度。优选的,所述发稿量为某一新闻客户端在采样周期内发布的稿件数量总和;所述稿件指该新闻客户端列表中可见的文章,定义为Ps;所述总阅读数为该新闻客户端在采样周期内所有稿件的总和,定义为Vs;所述APP阅读数平衡因子为令该新闻客户端的阅读数拟合到统一基准的平衡因子,定义为Avgs;所述单位时间内发稿数曲率为该新闻客户端在采样周期内单位时间的发稿数曲率,定义为Dpr,其通过如下公式进行取值,所述单位时间内阅读数曲率为该新闻客户端在采样周期内单位时间的阅读数曲率,定义为Vpr,其通过如下公式进行取值,所述稿件评论数为该新闻客户端的所有原创稿件的评论数总和;所述单位时间内评论数为该新闻客户端在采样周期内单位时间内评论数,定义为Cpr,其通过如下公式进行取值,优选的,所述活跃度数值公式如下,其中,Dau为新闻客户端的活跃度;Rri为惩罚系数;i为计算周期;Maxi为一个计算周期内最大的活跃数;Mini为一个计算周期内最小的活跃数。优选的,惩罚系数的取值如下,其中,x表示评论浏览活跃比。优选的,所述x由如下公式计算获得,其中,y表示发稿浏览活跃度比;cr表示评论活跃度;dr表示发稿活跃度;vr表示浏览活跃度。优选的,所述评论活跃度、发稿活跃度和浏览活跃度分别由以下公式获取,其中,C表示单篇文章评论数;D表示文章数;V表示单篇文章阅读数;j表示采样周期;Os代表原创稿件量。本专利技术的有益效果是:1、使用该方法能够对任意新闻类客户端能够普适性预测。2、能够平滑准确依据不同客户端进行自适应参数调节,避免了因单一客户端统计数据横向对比度无法衡量的问题。3、采用了基于机器学习方法,实现了新闻客户端活跃度预测,方便新闻工作人员、广告投放人员、舆情工作人员进一步利用预测结果,进行工作效果提前预判。附图说明图1是本专利技术实施例中预测方法的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术提供了一种新闻客户端活跃度第三方预测方法,包括如下步骤,S1、利用爬虫获取各新闻客户端的新闻内容,并根据不同新闻客户端发帖数量的差异,设置各新闻客户端的采样常量,且所有的新闻客户端都遵循同一个采样周期;S2、根据获取的新闻内容,定义发稿量、总阅读数、APP阅读数平衡因子、单位时间内发稿数曲率、单位时间内阅读数曲率、稿件评论数和单位时间内评论数;S3、根据步骤S2中定义的参数,采用活跃度数值公式,预测各新闻客户端的活跃度。本实施例中,所述发稿量为某一新闻客户端在采样周期内发布的稿件数量总和;所述稿件指该新闻客户端列表中可见的文章,定义为Ps;所述总阅读数为该新闻客户端在采样周期内所有稿件的总和,定义为Vs;所述APP阅读数平衡因子为令该新闻客户端的阅读数拟合到统一基准的平衡因子,定义为Avgs;所述单位时间内发稿数曲率为该新闻客户端在采样周期内单位时间的发稿数曲率,定义为Dpr,其通过如下公式进行取值,所述单位时间内阅读数曲率为该新闻客户端在采样周期内单位时间的阅读数曲率,定义为Vpr,其通过如下公式进行取值,所述稿件评论数为该新闻客户端的所有原创稿件的评论数总和;所述单位时间内评论数为该新闻客户端在采样周期内单位时间内评论数,定义为Cpr,其通过取下公式进行取值,本实施例中,所述活跃度数值公式如下,其中,Dau为新闻客户端的活跃度;Rri为惩罚系数;i为计算周期;Maxi为一个计算周期内最大的活跃数;Mini为一个计算周期内最小的活跃数。本实施例中,惩罚系数的取值如下,其中,x表示评论浏览活跃比。本实施例中,所述x由如下公式计算获得,其中,y表示发稿浏览活跃度比;cr表示评论活跃度;dr表示发稿活跃度;vr表示浏览活跃度。本实施例中,所述评论活跃度、发稿活跃度和浏览活跃度分别由以下公式获取,其中,C表示单篇文章评论数;D表示文章数;V表示单篇文章阅读数;j表示采样周期;Os代表原创稿件量。通过采用本专利技术公开的上述技术方案,得到了如下有益的效果:本专利技术通过提供一种新闻客户端活跃度第三方预测方法,使用该方法能够对任意新闻类客户端能够普适性预测;能够平滑准确依据不同客户端进行自适应参数调节,避免了因单一客户端统计数据横向对比度无法衡量的问题;同时,采用了基于机器学习方法,实现了新闻客户端活跃度预测,方便新闻工作人员、广告投放人员、舆情工作人员进一步利用预测结果,进行工作效果提前预判。以上所述仅是本专利技术的优选实施方式,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种新闻客户端活跃度第三方预测方法,其特征在于:包括如下步骤,S1、利用爬虫获取各新闻客户端的新闻内容,并根据不同新闻客户端发帖数量的差异,设置各新闻客户端的采样常量,且所有的新闻客户端都遵循同一个采样周期;S2、根据获取的新闻内容,定义发稿量、总阅读数、APP阅读数平衡因子、单位时间内发稿数曲率、单位时间内阅读数曲率、稿件评论数和单位时间内评论数;S3、根据步骤S2中定义的参数,采用活跃度数值公式,预测各新闻客户端的活跃度。

【技术特征摘要】
1.一种新闻客户端活跃度第三方预测方法,其特征在于:包括如下步骤,S1、利用爬虫获取各新闻客户端的新闻内容,并根据不同新闻客户端发帖数量的差异,设置各新闻客户端的采样常量,且所有的新闻客户端都遵循同一个采样周期;S2、根据获取的新闻内容,定义发稿量、总阅读数、APP阅读数平衡因子、单位时间内发稿数曲率、单位时间内阅读数曲率、稿件评论数和单位时间内评论数;S3、根据步骤S2中定义的参数,采用活跃度数值公式,预测各新闻客户端的活跃度。2.根据权利要求1所述的新闻客户端活跃度第三方预测方法,其特征在于:所述发稿量为某一新闻客户端在采样周期内发布的稿件数量总和;所述稿件指该新闻客户端列表中可见的文章,定义为Ps;所述总阅读数为该新闻客户端在采样周期内所有稿件的总和,定义为Vs;所述APP阅读数平衡因子为令该新闻客户端的阅读数拟合到统一基准的平衡因子,定义为Avgs;所述单位时间内发稿数曲率为该新闻客户端在采样周期内单位时间的发稿数曲率,定义为Dpr,其通过如下公式进行取值,所述单位时间内阅读数曲率为该新闻客户端在采样周期内单位时间的阅读数曲率,定...

【专利技术属性】
技术研发人员:王严博
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1