基于阴影特征筛选的针对互联网点击率预测的预测方法技术

技术编号：35479485 阅读：11 留言：0更新日期：2022-11-05 16:29

一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其包括数据预处理步骤、训练集的生成步骤和所述模型训练与模型建立步骤；其中，训练集的生成步骤包括特征工程的处理和阴影特征的构造和基于特征阴影的特征筛选。因此，本发明专利技术根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作，将保留的原特征用于模型的最终训练集和验证集的数据特征；即本发明专利技术通过构造阴影特征对于原始特征进行筛选，使筛选后的原始特征显著降低了树模型的过拟合风险，提升了算法的鲁棒性，并在实际业务中提升点击率预测结果都具有重要的意义。预测结果都具有重要的意义。预测结果都具有重要的意义。

全部详细技术资料下载

【技术实现步骤摘要】
基于阴影特征筛选的针对互联网点击率预测的预测方法

[0001]本专利技术涉及人工智能在互联网营销的
，更具体地，涉及一种基于阴影特征筛选的针对互联网点击率预测的预测方法。

技术介绍

[0002]点击率(Click
‑
Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。
[0003]在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。
[0004]本领域技术人员清楚，传统的CTR预估可看作是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。
[0005]在点击率预估中，数据特征一般可以分为：
[0006]①
、用户画像特征，其主要包括用户的年龄、性别、收入水平、使用设备类型等；
[0007]②
、物品/商品特征，其主要包括用户访问DPI、用户点击频次等。
[0008]③
、数据特征还可以通过结合具体的业务需求或通过算法对特征进行交互和组合，包括了各种统计特征等。
[0009]尤其是对于某些商品的类别特征，对其处理后(例如独热向量展开等)往往维度非常高，数据特征...

【技术保护点】

【技术特征摘要】
1.一种基于阴影特征筛选的针对互联网点击率预测的预测方法，其特征在于，包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3；所述数据预处理步骤S1包括如下步骤：步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；所述训练集的生成步骤S2包括特征工程的处理步骤S21和阴影特征的构造步骤S22和基于特征阴影的特征筛选步骤S23；步骤S21具体包括如下步骤：步骤S211：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列；步骤S212：采用通过独热编码对类别特征进行处理；步骤S213：连续特征进行数值型特征改造处理；步骤S214：进行特征筛选和特征构造，以形成新的特征；步骤S215：执行连续特征离散化处理；步骤S22阴影特征的构造具体包括如下步骤：对连续特征和离散化后的连续特征与类别特征构造对应的阴影特征；将训练数据集的训练数据原特征和获得的阴影特征拼接，得到2倍于所述训练数据原特征M的混合特征。步骤S23具体包括如下步骤：步骤S231：形成对每一个原特征和其对应的阴影特征的M个特征重要性的分布情况；根据特征筛选策略、是否有每一个原特征重要性在M次重复后的均值大于阴影特征的情况出现以及原特征和阴影特征的两者的分布具是否有显著性差异，对每一个原特征进行保留或删除的操作；步骤S232：将保留的原特征作为模型的最终训练集和验证集数据的特征；即使用保留下来的原特征作为基于树算法的神经网络模型的输入；所述模型训练与模型建立步骤S3包括：步骤S31：建立基于树算法的神经网络初始化模型，使用保留下来的原始数据的原特征，用所述训练集中的经过处理的原始数据，以是否点击作为训练标签，获得每个训练样本是否点击的输出概率；步骤S32，将所述新的训练集中的每一个样本对基于树算法的神经网络模型进行训练和验证，得到参数优化后的所述神经网络模型，并使用验证集进行验证...

【专利技术属性】
技术研发人员：项亮，裴智晖，
申请(专利权)人：上海数鸣人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人