【技术实现步骤摘要】
一种面向广告点击率预测的特征选取方法
本专利技术涉及互联网
,具体涉及一种面向广告点击率预测的特征选取方法。
技术介绍
随着移动智能设备的普及,移动智能设备成了人们与互联网接触的主要入口之一。移动端广告投放占比也越来越大,移动端广告的精准投放是提高广告收入的关键。其中竞价广告已经成为移动端广告主流之一。广告投放数据分为三种类型:连续数据:主要是指数据取值为实数且可以取该类数据取值分布范围内任意值的数据。如广告在某一维度的点击率信息。离散数据:主要是指数据取值为可枚举的字符串且数量较少的数据。包括设备信息,地理位置信息,时间信息等。长尾数据:在广告投放数据中,长尾数据主要是指用户Id数据,为了不影响用户体验,一般开发者都会限制同一用户广告展示频次,因此这类数据常常具有长尾分布。点击率预测系统是广告投放系统的核心部分。主要功能是根据当前环境与广告资源,预测用户点击广告这一行为发生的可能性。为了精准预测广告的点击率,充分利用大数据中的有效信息,需要进行复杂的特征设计。广告投放数据来源复杂,除了广告展示 ...
【技术保护点】
1.一种面向广告点击率预测的特征选取方法,其特征在于,包括:/n步骤(1)利用广告点击数据生成的数据特征构造特征集;/n步骤(2)对所述特征集的所有特征进行评估,筛选并标记所有无益特征,将对广告点击率预测模型影响最大的无益特征从所述特征集中删除,再更新所述特征集;/n步骤(3)对所述更新后的特征集内的所有无益特征进行评估,筛选并标记该次评估产生的新无益特征,取消其他无益特征的标记,并将对所述广告点击率预测模型影响最大的所述新无益特征从所述更新后的特征集中删除,再次更新所述特征集;/n若未产生新无益特征,则停止操作,得到的特征集为有效特征集;/n若产生新无益特征,则迭代执行步 ...
【技术特征摘要】
1.一种面向广告点击率预测的特征选取方法,其特征在于,包括:
步骤(1)利用广告点击数据生成的数据特征构造特征集;
步骤(2)对所述特征集的所有特征进行评估,筛选并标记所有无益特征,将对广告点击率预测模型影响最大的无益特征从所述特征集中删除,再更新所述特征集;
步骤(3)对所述更新后的特征集内的所有无益特征进行评估,筛选并标记该次评估产生的新无益特征,取消其他无益特征的标记,并将对所述广告点击率预测模型影响最大的所述新无益特征从所述更新后的特征集中删除,再次更新所述特征集;
若未产生新无益特征,则停止操作,得到的特征集为有效特征集;
若产生新无益特征,则迭代执行步骤(3),直至未产生新无益特征。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,所述数据特征包括:离散数据特征、连续数据离散化特征和/或长尾数据归类特征。
3.根据权利要求2所述的方法,其特征在于,所述连续数据离散化特征的获取方法包括:
枚举所有类型的连续数据;
分别利用每种类型的连续数据生成特征集;
调用梯度提升树模型训练,得到经过验证的梯度提升树模型后,提取梯度提升树的所有树的所有内部结点的分裂值,组成该种类型数据的分箱数组。
4.根据权利要求2所述的方法,其特征在于,所述长尾数据归类特征的获取方法包括:
定义取值频次相同或相近的长尾数据为同一个数据,将取值频次相同或相近的长尾数据分组,同一组长尾数据视为一个数据;
设置特征取值频次阈值,将长尾数据中的取值频次低于特征取值频次阈值的长尾数据使用取值频次进行分组,分组后的每组长尾数据视为同一个数据;
在对长尾数据进行分组处理后,使长尾数据中的取值频次大于或等于特征取值频次阈值的长尾数据进入特征集。
5.根据权利要求1所述的方法,其特征在于,所述对所述特征集的所有特征进行评估,筛...
【专利技术属性】
技术研发人员:刘譞哲,马郓,吕广利,陈震鹏,陆璇,
申请(专利权)人:北京大学天津滨海新一代信息技术研究院,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。