一种新闻点击率预测算法制造技术

技术编号:24418120 阅读:57 留言:0更新日期:2020-06-06 12:35
本发明专利技术基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,本发明专利技术旨在应用于迷你页弹窗的新闻点击,而迷你页弹窗是一个为用户提供新闻资讯的工具,热点资讯点击率远高于普通咨询,所以捕获真正的热点成为了迷你页提升点击率的核心,本发明专利技术旨在解决上述技术问题,通过矩估计与不动点估计相结合的方法,进而获取到接近真实点击率的估计值,本发明专利技术基于与所述参数α相关联的第一初始值、与参数β相关联的第二初始值,构造似然函数的一个下界函数,所述下界函数可以求得所述下界函数最大值处的闭式解,将上述闭式解作为新的估计,并重复上述步骤,直至收敛。本发明专利技术使用方便、功能强大、能精准的计算新闻点击率,具有极高的商业价值。

A prediction algorithm of news click through rate

【技术实现步骤摘要】
一种新闻点击率预测算法
本专利技术属于互联网统计领域,具体地,涉及一种新闻点击率预测算法。
技术介绍
互联网的出现,意味着"信息大爆炸",用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题,各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位,基于点击率的热门排行榜的应用非常普遍,比如贴吧帖子的热度,新闻网站新闻的热度等。目前已经实现的包括:一、美味书签Delicious网站的热门书签排行榜:统计过去60分钟内被收藏的次数进行排名,每60分钟统计一次;二、HackerNews社会化新闻网站的帖子热门排行榜:同时考虑用户的投票与时间因素进行排名,排名随时间衰减。具体地,一、Delicious网站的热门书签排行榜算法,其优点为比较简单,容易实现,内容更新相当快,而缺点为排名变化不够平滑,波动大,前一个小时还排名靠前的内容,往往第二个小时就一落千丈,另一方面,缺乏自动淘汰旧项目的机制,某些热门内容可能会长期占据排行榜前列。二、HackerNews社会化新闻网站的帖子热门排行榜算法,其优点为同时考虑时间因素与用户投票,防止热门内容长期占据排行榜前列,但缺点是内容更新慢,算法实现复杂度高。而目前并没有一种能够解决上述问题的技术方案,具体地,缺少一种新闻点击率预测算法。专利技术内容针对现有技术存在的技术缺陷,本专利技术的目的是提供一种新闻点击率预测算法,基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,所述新闻点击率ri通过如下公式计算:ri=(Ci+α^)/(Ii+α^+β^);其中,所述α^为参数α的估计,所述β^为参数β的估计。优选地,通过求解如下最大似然函数来计算所述α^以及所述β^,其中,误差在第一阈值范围内的α^和β^的解为所述最大似然函数的解:P(C1,C2,...,CN|I1,I2,...,IN,α,β);其中,所述(C1,C2,...,CN)为观测到的点击数据,所述(I1,I2,...,IN)表示广告被展示的次数。优选地,通过如下步骤求解所述最大似然函数:a.基于与所述参数α相关联的第一初始值、与所述参数β相关联的第二初始值,构造似然函数的一个下界函数,其中,所述下界函数可以求得所述下界函数最大值处的闭式解;b.将上述闭式解作为新的估计,并重复上述步骤a,直至收敛。优选地,所述第一初始值和/或所述第二初始值通过如下步骤计算获得:α=[mean*(1-mean)/var-1]*mean;β=[mean*(1-mean)/var-1]*(1-mean);其中,mean=E(x)=α/(α+β);var=D(x)=αβ/(α+β)2(α+β+1)。优选地,通过SparkStreaming程序将用户行为记录在zookeeper节点上,其中,所述用户行为至少包括所述点击次数Ci。优选地,通过Kafka分布式消息中间件对所述用户行为进行采集,其中,所述用户行为至少包括所述点击次数Ci。优选地,所述用户行为还至少包括如下操作或指令中任一种或任多种:-滑动窗口;-对窗口执行放大、缩小操作;以及-下拉滚动条。优选地,基于已观测到的点击次数Ci、展示次数Ii以及时间衰减对新闻点击率ri进行预测,所述新闻点击率ri还可以通过如下公式计算:ri=(Ci+α^)/(Ii+α^+β^)(T+1);其中,所述α^为参数α的估计,所述β^为参数β的估计,所述T为第一次曝光距离现在的时间。本专利技术基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,本专利技术旨在应用于迷你页弹窗的新闻点击,而迷你页弹窗是一个为用户提供新闻资讯的工具,热点资讯点击率远高于普通咨询,所以捕获真正的热点成为了迷你页提升点击率的核心,本专利技术旨在解决上述技术问题,通过矩估计与不动点估计相结合的方法,进而获取到接近真实点击率的估计值,同时,本专利技术基于与所述参数α相关联的第一初始值、与所述参数β相关联的第二初始值,构造似然函数的一个下界函数,所述下界函数可以求得所述下界函数最大值处的闭式解,将上述闭式解作为新的估计,并重复上述步骤,直至收敛。本专利技术使用方便、功能强大、能精准的计算新闻点击率,具有极高的商业价值。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出了本专利技术的具体实施方式的,求解所述最大似然函数的具体流程示意图。具体实施方式为了更好的使本专利技术的技术方案清晰地表示出来,下面结合附图对本专利技术作进一步说明。针对现有技术存在缺乏自动淘汰旧项目的机制、内容更新慢、算法实现复杂度高等等技术缺陷,本专利技术旨在提供一种能够将矩估计与不动点估计相结合的方法,从而更为精准的计算新闻点击率,本专利技术旨在服务于迷你页弹窗的新闻点击,但这并不代表其不能使用于其他
具体地,本专利技术提供一种新闻点击率预测算法,基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,所述新闻点击率ri通过如下公式计算:ri=(Ci+α^)/(Ii+α^+β^);其中,所述α^为参数α的估计,所述β^为参数β的估计,本专利技术所记载的实施方案优选地使用智能终端来完成,所述智能终端包括但不限于移动智能终端,即本专利技术优选地采用移动终端作为实施载体,在这样的实施例中,所述已观测到的点击次数Ci即为用户通过浏览新闻时,对某新闻产生兴趣后所采取的用户行为:点击,所述展示次数Ii则代表系统随机或有目的的向用户进行推送的新闻信息,即在一个优选地实施例中,系统向用户终端发起弹窗,并共计展示有10则新闻,而用户可以根据自己的喜好选择其中的任意或全部进行点击,则将点击数除以展示数即可大致得出新闻点击率,而在本专利技术中,由于需要考虑到数据的稀疏性,需要对其进行平滑处理,在此,可以引入参数来对其点击率进行数据修正,即参数α以及参数β,更为具体地,参数α以及参数β为一定的取值范围,如何从多个取值中选取最优解作为上述公式最后的代入,即为选取所述α^以及所述β^的过程。本领域技术人员理解,所谓数据的稀疏性,是指数据会因为“分子”、“分母”之间的差距过大或过小而造成数据的偏差,进一步地,新闻点击率CTR是度量一个用户对于一个新闻的行为的最好的度量方法,新闻点击率可以定义为:对于一个新闻的被点击(click)的次数于被展示(impression)的次数的比值,在计算CTR时由于数据的稀疏性,利用上述的计算方法得到的CTR通常具有较大的偏差,这样的偏差主要表现在如下的两种情况:1、例如展示impression的次数很小,如1次,其中,点击的次数的数值也很小,如1,按照上述本文档来自技高网
...

【技术保护点】
1.一种新闻点击率预测算法,基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,其特征在于,所述新闻点击率ri通过如下公式计算:/nri=(Ci+α^)/(Ii+α^+β^);/n其中,所述α^为参数α的估计,所述β^为参数β的估计。/n

【技术特征摘要】
1.一种新闻点击率预测算法,基于已观测到的点击次数Ci、展示次数Ii对新闻点击率ri进行预测,其特征在于,所述新闻点击率ri通过如下公式计算:
ri=(Ci+α^)/(Ii+α^+β^);
其中,所述α^为参数α的估计,所述β^为参数β的估计。


2.根据权利要求1所述的算法,其特征在于,通过求解如下最大似然函数来计算所述α^以及所述β^,其中,误差在第一阈值范围内的α^和β^的解为所述最大似然函数的解:
P(C1,C2,...,CN|I1,I2,...,IN,α,β);
其中,所述(C1,C2,...,CN)为观测到的点击数据,所述(I1,I2,...,IN)表示广告被展示的次数。


3.根据权利要求2所述的算法,其特征在于,通过如下步骤求解所述最大似然函数:
a.基于与所述参数α相关联的第一初始值、与所述参数β相关联的第二初始值,构造似然函数的一个下界函数,其中,所述下界函数可以求得所述下界函数最大值处的闭式解;
b.将上述闭式解作为新的估计,并重复上述步骤a,直至收敛。


4.根据权利要求3所述的算法,其特征在于,所述第一初始值和/或所述第二初始值通过如下步骤计算获得:
α=[mean*(1-mea...

【专利技术属性】
技术研发人员:郑纪伟黄修斌
申请(专利权)人:上海二三四五网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1