基于多分布的数据增强策略的点击率预测方法技术

技术编号:39493297 阅读:10 留言:0更新日期:2023-11-24 11:19
一种基于多分布的数据增强策略的点击率预测方法,其包括数据预处理步骤

【技术实现步骤摘要】
基于多分布的数据增强策略的点击率预测方法


[0001]本专利技术涉及人工智能在互联网营销的
,更具体地,涉及一种基于多分布的数据增强策略的点击率预测方法


技术介绍

[0002]点击率
(Click

Through Rate
,简称
CTR)
预估问题是互联网计算广告中的关键环节;对用户预估的准确性直接影响公司营销广告的收入

点击率预估问题是互联网计算广告中的关键环节,对用户预估的准确性直接影响公司营销广告的收入

[0003]在广告投放过程中,一般会经历广告曝光

用户点击和用户注册
(
或称转化
)
这三个过程,
CTR
预估的一大目的是提高从广告曝光到用户点击的效率,即提高点击率

由于用户点击或不点击一般定义为用户行为的标签

因此,传统的
CTR
预估可看做是一个有监督学习问题,即已知了用户点击行为等一系列特征后,将用户点击或不点击记作标签,从而通过模型进行二分类学习或概率预测

[0004]数据增强
(data augmentation)
是机器学习中常用的方法,用以强化模型训练的鲁棒性

以计算机视觉为例,对于图像数据,一般可以通过对其进行平移

旋转

拉伸

缩放和灰度等操作得到一组新的数据,而本质上这些图像所对应的标签并没有改变

通过这种方式,可以使模型更加充分的对特征进行学习

[0005]然而,在广告点击率预测任务中,由于不同特征差异较大,同一特征往往数据分布也表现出很大的不均衡

因此,如何有效的实现点击率预测问题中的数据增强,对于提升模型鲁棒性和预测效果具有重要的实际应用价值


技术实现思路

[0006]本专利技术的目的在于提供一种基于多分布的数据增强策略的点击率预测方法,可以针对广告点击率预测中不同用户和商品特征,以及标签进行数据增强,以强化有监督学习的鲁棒性,并提升预测效果

[0007]为实现上述目的,本专利技术的技术方案如下:
[0008]一种基于多分布的数据增强策略的广告点击率预测方法,其包括,包括数据预处理步骤
S1、
训练集和验证集的生成步骤
S2、
模型训练步骤
S3
和对待测用户进行广告点击率预测步骤
S4

[0009]所述数据预处理步骤
S1
包括如下步骤:
[0010]步骤
S11
:获取
N
个用户的原始数据信息,并从所述用户的原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户
ID、
用户所在省份

用户所在城市

用户访问
DPI、
用户访问频度
(
频度
)、
设备类型和
/
或用户是否点击特征;其中,所述用户所在省份

用户所在城市

和用户访问
DPI
为类别特征,所述用户访问频度为连续特征,所述
N
大于等于2;
[0011]步骤
S12
:对所述用户的原始特征信息进行异常检测与处理步骤;
[0012]所述训练集的生成步骤
S2
包括特征工程的处理步骤
S21
和基于多分布的数据增强
策略的构建步骤
S22

[0013]步骤
S21
具体包括如下步骤:
[0014]步骤
S211
:用户访问
DPI
去重处理步骤,建立用户
ID
与用户访问
DPI
的特征列;
[0015]步骤
S212
:采用通过独热编码对类别特征进行处理;其中,所述类别特征为用户访问
DPI
的独热编码

号码归属地的独热编码和离散化后的
DPI
访问时间;
[0016]步骤
S213
:连续特征进行数值型特征改造处理,其中,所述连续特征包括
DPI
访问时间的统计特征,并增加峰度和偏度的统计特征;
[0017]步骤
S214
:根据嵌入法进行特征筛选和特征构造,以形成新的特征;
[0018]步骤
S215
:执行连续特征离散化处理;
[0019]步骤
S22
包括:
[0020]步骤
S221
:进行
DPI
点击特征的数据增强
[0021]通过用户访问
DPI
访问列表,获得所有用户当天访问用户访问
DPI
的情况,之后对用户访问
DPI
访问列表中的用户访问
DPI
进行计数统计来获得共现矩阵;其中,所述共现矩阵的维度为
n
×
n

[0022]使用奇异值分解算法将共现矩阵分解得到维度为
n
×
k
的特征矩阵,其中,
k
为特征矩阵的维度,所述特征矩阵的维度自由指定,代表特征维度,对于每个
DPI
来说都有对应的
k
维特征向量,所述
k
维特征向量即用户访问
DPI
的稠密表达,通过高斯分布拟合,得到数据增强后的新
DPI
点击特征;其中,
k<n

[0023]步骤
S222
:进行
DPI
频次特征的数据增强
[0024]对稀疏特征的所述
DPI
频次特征先通过一个全连接的神经网络,进行嵌入,同时实现降维,然后通过对数正态分布对其进行拟合,并得到数据增强后的新
DPI
频次特征;
[0025]步骤
S223
:进行用户归属地特征的数据增强
[0026]对用户归属地特征经过
target

encoding
编码后,采用离散分布
Poisson
分布对数据拟合,得到数据强化后的新用户归属地特征;
[0027]步骤
S224
:进行用户访问标签的数据增强
[0028]采用
binomial
分布对用户访问标签的数据拟合,得到数据强化后的新用户访问标签;
[0029]步骤
...

【技术保护点】

【技术特征摘要】
1.
一种基于多分布的数据增强策略的点击率预测方法,其特征在于,包括数据预处理步骤
S1、
训练集和验证集的生成步骤
S2、
模型训练步骤
S3
和对待测用户进行广告点击率预测步骤
S4
;所述数据预处理步骤
S1
包括如下步骤:步骤
S11
:获取
N
个用户的原始数据信息,并从所述用户的原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户
ID、
用户所在省份

用户所在城市

用户访问
DPI、
用户访问频度

设备类型和用户是否点击特征;其中,所述用户所在省份

用户所在城市

和用户访问
DPI
为类别特征,所述用户访问频度为连续特征,所述
N
大于等于2;步骤
S12
:对所述用户的原始特征信息进行异常检测与处理步骤;所述训练集的生成步骤
S2
包括特征工程的处理步骤
S21
和基于多分布的数据增强策略的构建步骤
S22
;步骤
S21
具体包括如下步骤:步骤
S211
:用户访问
DPI
去重处理步骤,建立用户
ID
与用户访问
DPI
的特征列;步骤
S212
:通过独热编码对类别特征进行处理;其中,所述类别特征为用户访问
DPI
特征的独热编码

用户归属地特征的独热编码和离散化后的
DPI
访问时间特征;其中,所述用户归属地特征包括用户所在省份特征和用户所在城市特征;步骤
S213
:连续特征进行数值型特征改造处理;其中,所述连续特征包括
DPI
访问时间的统计特征;步骤
S214
:根据嵌入法进行特征筛选,即建立随机森林基学习器对预处理后的特征数据进行训练并输出各个特征的重要性,消除若干权重较低的特征,再基于新的特征集进行下一轮训练,重复
M
次递归的消除重要性较低的特征;并添加偏度和峰度统计特征进行特征构造,以形成新的特征;步骤
S215
:执行连续特征离散化处理;步骤
S22
包括:步骤
S221
:进行
DPI
点击特征的数据增强通过用户访问
DPI
访问列表,获得所有用户当天访问用户访问
DPI
的情况,之后对用户访问
DPI
访问列表中的用户访问
DPI
进行计数统计来获得共现矩阵;其中,所述共现矩阵的维度为
n
×
n
;使用奇异值分解算法将共现矩阵分解得到维度为
n
×
k
的特征矩阵,其中,
k
为特征矩阵的维度,所述特征矩阵的维度自由指定,代表特征维度,对于每个
DPI
来说都有对应的
k
维特征向量,所述
k
维特征向量即用户访问
DPI
的稠密表达,通过高斯分布拟合,...

【专利技术属性】
技术研发人员:项亮徐湘湘
申请(专利权)人:上海数鸣人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1