【技术实现步骤摘要】
基于多分布的数据增强策略的点击率预测方法
[0001]本专利技术涉及人工智能在互联网营销的
,更具体地,涉及一种基于多分布的数据增强策略的点击率预测方法
。
技术介绍
[0002]点击率
(Click
‑
Through Rate
,简称
CTR)
预估问题是互联网计算广告中的关键环节;对用户预估的准确性直接影响公司营销广告的收入
。
点击率预估问题是互联网计算广告中的关键环节,对用户预估的准确性直接影响公司营销广告的收入
。
[0003]在广告投放过程中,一般会经历广告曝光
、
用户点击和用户注册
(
或称转化
)
这三个过程,
CTR
预估的一大目的是提高从广告曝光到用户点击的效率,即提高点击率
。
由于用户点击或不点击一般定义为用户行为的标签
。
因此,传统的
CTR
预估可看做是一个有监督学习问题,即已知了用户点击行为等一系列特征后,将用户点击或不点击记作标签,从而通过模型进行二分类学习或概率预测
。
[0004]数据增强
(data augmentation)
是机器学习中常用的方法,用以强化模型训练的鲁棒性
。
以计算机视觉为例,对于图像数据,一般可以通过对其进行平移
、
旋转
、
拉伸
、
缩放和灰度等操作
【技术保护点】
【技术特征摘要】
1.
一种基于多分布的数据增强策略的点击率预测方法,其特征在于,包括数据预处理步骤
S1、
训练集和验证集的生成步骤
S2、
模型训练步骤
S3
和对待测用户进行广告点击率预测步骤
S4
;所述数据预处理步骤
S1
包括如下步骤:步骤
S11
:获取
N
个用户的原始数据信息,并从所述用户的原始数据信息提取原始特征信息;其中,所述原始特征信息包括用户
ID、
用户所在省份
、
用户所在城市
、
用户访问
DPI、
用户访问频度
、
设备类型和用户是否点击特征;其中,所述用户所在省份
、
用户所在城市
、
和用户访问
DPI
为类别特征,所述用户访问频度为连续特征,所述
N
大于等于2;步骤
S12
:对所述用户的原始特征信息进行异常检测与处理步骤;所述训练集的生成步骤
S2
包括特征工程的处理步骤
S21
和基于多分布的数据增强策略的构建步骤
S22
;步骤
S21
具体包括如下步骤:步骤
S211
:用户访问
DPI
去重处理步骤,建立用户
ID
与用户访问
DPI
的特征列;步骤
S212
:通过独热编码对类别特征进行处理;其中,所述类别特征为用户访问
DPI
特征的独热编码
、
用户归属地特征的独热编码和离散化后的
DPI
访问时间特征;其中,所述用户归属地特征包括用户所在省份特征和用户所在城市特征;步骤
S213
:连续特征进行数值型特征改造处理;其中,所述连续特征包括
DPI
访问时间的统计特征;步骤
S214
:根据嵌入法进行特征筛选,即建立随机森林基学习器对预处理后的特征数据进行训练并输出各个特征的重要性,消除若干权重较低的特征,再基于新的特征集进行下一轮训练,重复
M
次递归的消除重要性较低的特征;并添加偏度和峰度统计特征进行特征构造,以形成新的特征;步骤
S215
:执行连续特征离散化处理;步骤
S22
包括:步骤
S221
:进行
DPI
点击特征的数据增强通过用户访问
DPI
访问列表,获得所有用户当天访问用户访问
DPI
的情况,之后对用户访问
DPI
访问列表中的用户访问
DPI
进行计数统计来获得共现矩阵;其中,所述共现矩阵的维度为
n
×
n
;使用奇异值分解算法将共现矩阵分解得到维度为
n
×
k
的特征矩阵,其中,
k
为特征矩阵的维度,所述特征矩阵的维度自由指定,代表特征维度,对于每个
DPI
来说都有对应的
k
维特征向量,所述
k
维特征向量即用户访问
DPI
的稠密表达,通过高斯分布拟合,...
【专利技术属性】
技术研发人员:项亮,徐湘湘,
申请(专利权)人:上海数鸣人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。