基于阴影特征筛选的针对互联网点击率预测的预测方法技术

技术编号:35479485 阅读:11 留言:0更新日期:2022-11-05 16:29
一种基于阴影特征筛选的针对互联网点击率预测的预测方法,其包括数据预处理步骤、训练集的生成步骤和所述模型训练与模型建立步骤;其中,训练集的生成步骤包括特征工程的处理和阴影特征的构造和基于特征阴影的特征筛选。因此,本发明专利技术根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异,对每一个原特征进行保留或删除的操作,将保留的原特征用于模型的最终训练集和验证集的数据特征;即本发明专利技术通过构造阴影特征对于原始特征进行筛选,使筛选后的原始特征显著降低了树模型的过拟合风险,提升了算法的鲁棒性,并在实际业务中提升点击率预测结果都具有重要的意义。预测结果都具有重要的意义。预测结果都具有重要的意义。

【技术实现步骤摘要】
基于阴影特征筛选的针对互联网点击率预测的预测方法


[0001]本专利技术涉及人工智能在互联网营销的
,更具体地,涉及一种基于阴影特征筛选的针对互联网点击率预测的预测方法。

技术介绍

[0002]点击率(Click

Through Rate,简称CTR)预估问题是互联网计算广告中的关键环节;对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节,对用户预估的准确性直接影响公司营销广告的收入。
[0003]在广告投放过程中,一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程,CTR预估的一大目的是提高从广告曝光到用户点击的效率,即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。
[0004]本领域技术人员清楚,传统的CTR预估可看作是一个有监督学习问题:即已知了用户点击行为等一系列特征后,将用户点击记为1,用户不点击记为0,从而进行二分类学习。
[0005]在点击率预估中,数据特征一般可以分为:
[0006]①
、用户画像特征,其主要包括用户的年龄、性别、收入水平、使用设备类型等;
[0007]②
、物品/商品特征,其主要包括用户访问DPI、用户点击频次等。
[0008]③
、数据特征还可以通过结合具体的业务需求或通过算法对特征进行交互和组合,包括了各种统计特征等。
[0009]尤其是对于某些商品的类别特征,对其处理后(例如独热向量展开等)往往维度非常高,数据特征的组成也较为复杂。此外,在很多业务中,数据特征对于待预测结果的贡献也往往是人们关心的问题。因此,进行数据特征筛选对于提取重要特征、降低计算复杂度、降低过拟合风险等多方面都是非常有益的。
[0010]本领域技术人员清楚,对于很多基于树模型的算法,如XGBoost,LightGBM等,可以通过输出特征重要性来指导特征工程,但特征重要性却无法用于特征筛选,这主要原因如下:
[0011]首先,由于特征重要性只能说明哪些特征在训练时起到作用了,并不能说明特征和目标变量之间一定存在依赖关系。
[0012]第二,特征重要性一般是根据决策树分裂前后节点的不纯度的减少量(例如基尼系数)求得的,因此,特别容易高估数值特征和基数高的类别特征的重要性。
[0013]最后,当输出特征重要性后,一般需要人为的选定阈值来选择保留或删除某些特征,很难确保筛选后的特征能提升模型性能。

技术实现思路

[0014]本专利技术的目的在于提供一种基于阴影特征筛选的针对互联网点击率预测的预测方法,其通过构造阴影特征,与原始特征信息通过树模型训练后输出特征重要性并进行特征筛选,以提升用户点击率预测结果。
[0015]为实现上述目的,本专利技术的技术方案如下:
[0016]一种基于阴影特征筛选的针对互联网点击率预测的预测方法,其包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3;
[0017]所述数据预处理步骤S1包括如下步骤:
[0018]步骤S11:获取N个用户的原始数据信息,并从所述用户的原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征;其中,所述用户所在省份、用户所在城市、和用户访问DPI为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
[0019]步骤S12:对所述用户的原始特征信息进行异常检测与处理步骤;
[0020]步骤S13:通过独热编码对类别特征进行处理,根据业务需求及求解模型选择进行归一化后梯度下降处理,或利用RankGauss方法对连续特征进行调整样本分布处理;
[0021]所述训练集的生成步骤S2包括特征工程的处理步骤S21和阴影特征的构造步骤S22和基于特征阴影的特征筛选步骤S23;
[0022]步骤S21具体包括如下步骤:
[0023]步骤S211:用户访问DPI处理步骤,建立用户ID与用户访问DPI的特征列;
[0024]步骤S212:采用通过独热编码对类别特征进行处理;
[0025]步骤S213:连续特征进行数值型特征改造处理;
[0026]步骤S214:进行特征筛选和特征构造,以形成新的特征;
[0027]步骤S215:执行连续特征离散化处理;
[0028]步骤S22阴影特征的构造具体包括如下步骤:
[0029]对连续特征和离散化后的连续特征与类别特征构造对应的阴影特征;将训练数据集的训练数据原特征和获得的阴影特征拼接,得到2倍于所述训练数据原特征M的混合特征。
[0030]步骤S23具体包括如下步骤:
[0031]步骤S231:形成对每一个原特征和其对应的阴影特征的M个特征重要性的分布情况;根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异,对每一个原特征进行保留或删除的操作;
[0032]步骤S232:将保留的原特征作为模型的最终训练集和验证集数据的特征;即使用保留下来的原特征作为基于树算法的神经网络模型的输入;
[0033]所述模型训练与模型建立步骤S3包括:
[0034]步骤S31:建立基于树算法的神经网络初始化模型,使用保留下来的原始数据的原特征,用所述训练集中的经过处理的原始数据,以是否点击作为训练标签,获得每个训练样本是否点击的输出概率;
[0035]步骤S32,将所述新的训练集中的每一个样本对基于树算法的神经网络模型进行训练和验证,得到参数优化后的所述神经网络模型,并使用验证集进行验证,得到最终的基于树算法的预测网络模型。
[0036]进一步地,所述步骤S31建立基于树算法的初始化模型为梯度提升决策树模型,其实现方式包括XGBoost或lightGBM。
[0037]进一步地,所述特征筛选策略包括:
[0038]①
、将特征重要性均值小于其对应的阴影特征的原特征直接一起从数据集中删除,无论二者是否具有显著性差异;
[0039]②
、对于特征重要性均值大于其对应的阴影特征的原特征,使用曼

惠特尼U检验来判断二者分布是否具有显著性差异;如果所选择的原特征其重要性均值显著大于对应阴影特征的重要性,则保留,否则,将原特征和其对应的阴影特征直接一起从数据集中删除。
[0040]进一步地,所述的预测方法还包括预测步骤S4,其具体包括:
[0041]步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始数据信息,并从所述用户原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征;其中,所述用户所在省份、用户所在城市、和用户访问D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于阴影特征筛选的针对互联网点击率预测的预测方法,其特征在于,包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3;所述数据预处理步骤S1包括如下步骤:步骤S11:获取N个用户的原始数据信息,并从所述用户的原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征;其中,所述用户所在省份、用户所在城市、和用户访问DPI为类别特征,所述用户访问时间为连续特征,所述N大于等于2;步骤S12:对所述用户的原始特征信息进行异常检测与处理步骤;步骤S13:通过独热编码对类别特征进行处理,根据业务需求及求解模型选择进行归一化后梯度下降处理,或利用RankGauss方法对连续特征进行调整样本分布处理;所述训练集的生成步骤S2包括特征工程的处理步骤S21和阴影特征的构造步骤S22和基于特征阴影的特征筛选步骤S23;步骤S21具体包括如下步骤:步骤S211:用户访问DPI处理步骤,建立用户ID与用户访问DPI的特征列;步骤S212:采用通过独热编码对类别特征进行处理;步骤S213:连续特征进行数值型特征改造处理;步骤S214:进行特征筛选和特征构造,以形成新的特征;步骤S215:执行连续特征离散化处理;步骤S22阴影特征的构造具体包括如下步骤:对连续特征和离散化后的连续特征与类别特征构造对应的阴影特征;将训练数据集的训练数据原特征和获得的阴影特征拼接,得到2倍于所述训练数据原特征M的混合特征。步骤S23具体包括如下步骤:步骤S231:形成对每一个原特征和其对应的阴影特征的M个特征重要性的分布情况;根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异,对每一个原特征进行保留或删除的操作;步骤S232:将保留的原特征作为模型的最终训练集和验证集数据的特征;即使用保留下来的原特征作为基于树算法的神经网络模型的输入;所述模型训练与模型建立步骤S3包括:步骤S31:建立基于树算法的神经网络初始化模型,使用保留下来的原始数据的原特征,用所述训练集中的经过处理的原始数据,以是否点击作为训练标签,获得每个训练样本是否点击的输出概率;步骤S32,将所述新的训练集中的每一个样本对基于树算法的神经网络模型进行训练和验证,得到参数优化后的所述神经网络模型,并使用验证集进行验证...

【专利技术属性】
技术研发人员:项亮裴智晖
申请(专利权)人:上海数鸣人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1