一种基于Xgboost算法的点击率预估方法及系统技术方案

技术编号:20624565 阅读:28 留言:0更新日期:2019-03-20 15:20
本申请提供了一种基于Xgboost算法的点击率预估方法,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个原始特征对Xgboost算法进行模型训练,得到模型文件;获取广告投放平台的广告库中预定数量广告对应的当前特征;将各个当前特征分别和模型文件进行点击率的计算,得到对应的预估点击率数值。可见,该方法是在Xgboost算法的基础上得到对应的模型文件,该模型文件能够快速的对广告特征进行处理得到预估点击率数值。此外,该方法可移植性好即可以实现在各个平台上,相比于相关技术容错性高。本申请还提供一种基于Xgboost算法的点击率预估系统、计算机及计算机可读存储介质,均具有上述有益效果。

A click-through rate prediction method and system based on Xgboost algorithm

This application provides a click-through rate prediction method based on Xgboost algorithm, which includes: selecting a predetermined number of original features from the log data of the advertising platform; training the Xgboost algorithm with various original features to obtain model files; obtaining the current features corresponding to the predetermined number of advertisements in the advertising Library of the advertising platform; and separating the current features from each other. The click-through rate is calculated with the model file, and the corresponding predicted click-through rate is obtained. It can be seen that this method is based on the Xgboost algorithm to get the corresponding model file, which can quickly process the advertising features to get the predicted click-through rate value. In addition, this method can be implemented on various platforms with good portability, and is more fault-tolerant than related technologies. The application also provides a click-through rate prediction system based on Xgboost algorithm, computer and computer readable storage media, all of which have the above beneficial effects.

【技术实现步骤摘要】
一种基于Xgboost算法的点击率预估方法及系统
本申请涉及点击率预估领域,特别涉及一种基于Xgboost算法的点击率预估方法、系统、计算机及计算机可读存储介质。
技术介绍
随着网络技术的快速发展,互联网广告成为互联网企业最重要的盈利手段之一。像Google、Facebook、百度等公司的互联网变现和收入的主要来源也是广告。近些年,越来越多的企业和机构开始研究互联网广告平台,他们也慢慢地将传统媒体广告(报纸、杂志、电视、广播等)投放转向互联网广告投放。然而,互联网广告投放的随意性和泛滥性让网民深受其烦,不仅收益不理想,而且点击率(Click-Through-Rate,CTR)也在下降。例如,南药资源平台是以中药材价格信息、药材产地信息、中药材市场行情、种植技术等信息服务为主并结合实体中药材交易市场的第三方网络服务平台。该平台上每年新投放的广告越来越多,但由于广告投放策略不适当,使得点击率不能有所提升,也导致展示这些广告带来的收益一直达不到预期效果。事实上,这里投放策略不佳的原因主要有两点:1)页面所展示的广告与用户感兴趣的信息相关性不大;2)广告投放的目的是将点击率高的广告投放到好的位置来最大限度获取用户的点击,由于该平台在投放广告前没有对每条候选广告做精确的CTR预估,只能凭借经验来摆放广告的位置,这很可能将点击率高的广告放在不显眼的位置。那么,制定怎样的广告投放策略才能实现广告精准投放,这需要从用户信息、页面信息、广告信息中抽取出有用特征(如用户ip、查询请求的时间戳、广告id、广告标题、广告描述、匹配的竞价词、广告标题的切词结果、广告描述的切词结果、流量来源id等)来解决用户相似度问题;也需要设计和实现一个能计算候选广告CTR大小的系统来解决广告排序的问题。为了实现广告的精准投放,相关技术为He等人提出逻辑回归模型与GBDT模型进行组合的方法,针对Facebook的广告系统进行点击率预估研究,用户的访问行为触发广告系统选择候选广告,从广告库中选择一部分广告来,利用用户的身份信息以及网页信息等作为特征,首先由决策树模型进行模型训练,得到的输出结果直接作为逻辑回归模型的输入重新进行模型训练。但是,该方法中的GBDT模型即GBDT算法受树的深度和棵树限制,导致对广告特征的处理速度慢。因此,如何提高对广告特征的处理速度是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的是提供一种基于Xgboost算法的点击率预估方法、系统、计算机及计算机可读存储介质,能够快速的对广告特征进行处理得到预估点击率数值。为解决上述技术问题,本申请提供一种基于Xgboost算法的点击率预估方法,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;获取所述广告投放平台的广告库中预定数量广告对应的当前特征;将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。优选地,得到对应的预估点击率数值之后,还包括:根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应的广告进行排序;根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。优选地,从广告投放平台的日志数据中选取出预定数量的原始特征和利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件之间,还包括:对多个所述原始特征进行组合。优选地,得到对应的预估点击率数值之后,还包括:获取所述预估点击率数值对应的广告的实际点击率数值;利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算法进行评估计算,得出评估结果。本申请还提供一种基于Xgboost算法的点击率预估系统,包括:原始特征选取模块,用于从广告投放平台的日志数据中选取出预定数量的原始特征;模型训练模块,用于利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;当前特征获取模块,用于获取所述广告投放平台的广告库中预定数量广告对应的当前特征;点击率计算模块,用于将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。优选地,该点击率预估系统还包括:排序模块,用于根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应的广告进行排序;摆放位置确定模块,用于根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。优选地,该点击率预估系统还包括:特征组合模块,用于对多个所述原始特征进行组合。优选地,该点击率预估系统还包括:实际点击率数值获取模块,用于获取所述预估点击率数值对应的广告的实际点击率数值;评估计算模块,用于利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算法进行评估计算,得出评估结果。本申请还提供一种计算机,包括:存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述所述的基于Xgboost算法的点击率预估方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于Xgboost算法的点击率预估方法的步骤。本申请所提供的一种基于Xgboost算法的点击率预估方法,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;获取所述广告投放平台的广告库中预定数量广告对应的当前特征;将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。该方法利用选取出的原始特征对Xgboost算法进行模型训练得到模型文件,再利用该模型文件和获取的预定数量广告对应的当前特征进行点击率的计算,得到对应的预估点击率数值。可见,该方法是在Xgboost算法的基础上得到对应的模型文件,该模型文件能够快速的对广告特征进行处理得到预估点击率数值。此外,该方法的可移植性好即可以实现在各个平台上,相比于相关技术容错性也高。本申请还提供一种基于Xgboost算法的点击率预估系统、计算机及计算机可读存储介质,均具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种基于Xgboost算法的点击率预估方法的流程图;图2为本申请实施例所提供的一种基于Xgboost算法的点击率预估系统的结构框图。具体实施方式本申请的核心是提供一种基于Xgboost算法的点击率预估方法,能够快速的对广告特征进行处理得到预估点击率数值。本申请的另一核心是提供一种基于Xgboost算法的点击率预估系统、计算机及计算机可读存储介质。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文档来自技高网
...

【技术保护点】
1.一种基于Xgboost算法的点击率预估方法,其特征在于,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;获取所述广告投放平台的广告库中预定数量广告对应的当前特征;将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。

【技术特征摘要】
1.一种基于Xgboost算法的点击率预估方法,其特征在于,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;获取所述广告投放平台的广告库中预定数量广告对应的当前特征;将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。2.根据权利要求1所述的广告点击率预估方法,其特征在于,得到对应的预估点击率数值之后,还包括:根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应的广告进行排序;根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。3.根据权利要求1所述的广告点击率预估方法,其特征在于,从广告投放平台的日志数据中选取出预定数量的原始特征和利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件之间,还包括:对多个所述原始特征进行组合。4.根据权利要求1所述的广告点击率预估方法,其特征在于,得到对应的预估点击率数值之后,还包括:获取所述预估点击率数值对应的广告的实际点击率数值;利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算法进行评估计算,得出评估结果。5.一种基于Xgboost算法的点击率预估系统,其特征在于,包括:原始特征选取模块,用于从广告投放平台的日志数据中选取出预定数量的原始特征;模型训练模块,用于利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;当...

【专利技术属性】
技术研发人员:曾虎冯广徐启东周瀚章龚旭辉
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1