一种CTR预估方法、装置及计算机可读存储介质制造方法及图纸

技术编号:34466874 阅读:18 留言:0更新日期:2022-08-10 08:40
本发明专利技术实施例公开了一种CTR预估方法,包括:获取预设天数内的广告日志数据,按目标键值对广告日志数据进行统计计算,根据用户点击行为生成每条目标键值下的标签,将每条目标键值下对应的统计计算结果与标签合并,得到第一数据集;构建多维画像,将多维画像作为第二数据集;以目标键值为数据标识,将第一数据集及第二数据集合并为第三数据集;对第三数据集进行特征工程处理,得到训练数据集;采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型;使用预估模型对待测数据进行CTR预估,得到预估的CTR结果。通过融合FM及CNN,解决了稀疏特征全量交互效果差的问题,提高了模型的预估准确性。高了模型的预估准确性。高了模型的预估准确性。

【技术实现步骤摘要】
一种CTR预估方法、装置及计算机可读存储介质


[0001]本专利技术涉及互联网广告
,尤其涉及一种CTR预估方法、装置及计算机可读存储介质。

技术介绍

[0002]随着互联网的发展,互联网广告成为互联网企业的重要收入渠道。广告系统作为用户和广告主的纽带,一方面为用户带来了个性化的体验,另一方面为广告主的品牌拓展、产品推广和销量提升等带来巨大的商业价值。广告系统中的点击率预估(Click Through Rate,以下简称CTR),是根据用户对广告的历史行为数据建模,根据请求的用户和广告来预测用户对广告的点击概率。CTR预估作为广告系统的重要组成部分,提升CTR模型的预估能力,能够提升广告系统的质量、提升用户的体验、提升广告主的营销质量,为互联网广告企业创造更高的价值。
[0003]目前业界CTR预估最常用的一种方案就是直接根据历史结构化数据进行建模。在其下的诸多网络结构,传统方法是从原始特征中学习低阶特征和高阶特征的交互,例如,DCN的Cross交叉层、PNN的Product乘积层、AFM的Attention注意力层等。上述方法再结合DNN能够对学习全量特征交互有较好的效果,但是在广告CTR场景中,存在大量的稀疏数据,即有用的交互大多是稀疏的,因此上述方法很难在大量参数中高效的学习它们,所以直接使用传统特征交互方法效果反而不太理想。
[0004]针对现有技术中训练模型时无法对稀疏特征进行有效学习的问题,目前还没有一个有效的解决方法。

技术实现思路

[0005]为解决上述问题,本专利技术提供一种CTR预估方法,通过对广告日志数据进行统计计算、打标及多维画像构建得到特征丰富的训练数据集,在特征训练时采用CNN算法及内积算法对局部特征进行训练,采用FM算法对全局特征进行训练,得到预估模型,从而加强对稀疏特征的关注度,以解决现有技术中训练模型时无法对稀疏特征进行有效学习的问题。
[0006]为达到上述目的,本专利技术提供了一种CTR预估方法,包括:获取预设天数内的广告日志数据,按目标键值对所述广告日志数据进行统计计算,得到统计计算结果,根据用户点击行为生成每条目标键值下的标签,将每条目标键值下对应的统计计算结果与标签合并,得到第一数据集;根据所述广告日志数据构建多维画像,将所述多维画像作为第二数据集;以目标键值为数据标识,将所述第一数据集及第二数据集合并为第三数据集;对第三数据集进行特征工程处理,得到训练数据集;采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型;使用预估模型对待测数据进行CTR预估,得到预估的CTR结果。
[0007]进一步可选的,所述采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型包括:识别所述训练数据集
中的稀疏特征及稠密特征;将所述稀疏特征依次经过CNN算法及内积算法进行特征交叉,得到第一特征数据;将稠密特征与向量化后的稀疏特征进行拼接,得到第二特征数据;将所述稀疏特征及稠密特征进行特征交叉,得到第三特征数据;将所述第一特征数据、第二特征数据及第三特征数据进行训练,得到所述预估模型。
[0008]进一步可选的,所述对第三数据集进行特征工程处理包括:对所述第三数据集进行缺失值处理;和/或对所述第三数据集进行特征选择;和/或对所述第三数据集进行异常值剔除;和/或对所述第三数据集进行无量纲化;和/或对所述第三数据集进行数据修正。
[0009]进一步可选的,所述目标键值为用户ID、广告ID及媒体ID的组合。
[0010]进一步可选的,根据所述广告日志数据构建多维画像,包括:提取所述广告日志数据中的用户特征字段,根据所述用户特征字段构建用户维度画像;提取所述广告日志数据中的广告特征字段,根据所述广告特征字段构建广告维度画像;提取所述广告日志数据中的媒体特征字段,根据所述媒体特征字段构建媒体维度画像。
[0011]另一方面,本专利技术还提供一种CTR预估装置,包括:第一数据集生成模块,用于获取预设天数内的广告日志数据,按目标键值对所述广告日志数据进行统计计算,得到统计计算结果,根据用户点击行为生成每条目标键值下的标签,将每条目标键值下对应的统计计算结果与标签合并,得到第一数据集;第二数据集生成模块,用于根据所述广告日志数据构建多维画像,将所述多维画像作为第二数据集;第三数据集生成模块,用于以目标键值为数据标识,将所述第一数据集及第二数据集合并为第三数据集;训练数据集生成模块,用于对第三数据集进行特征工程处理,得到训练数据集;预估模型训练模块,用于采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型;预测模块,用于使用预估模型对待测数据进行CTR预估,得到预估的CTR结果。
[0012]进一步可选的,所述预估模型训练模块,包括:特征识别子模块,用于识别所述训练数据集中的稀疏特征及稠密特征;局部特征交叉子模块,用于将所述稀疏特征依次经过CNN算法及内积算法进行特征交叉,得到第一特征数据;第二特征数据生成子模块,用于将稠密特征与向量化后的稀疏特征进行拼接,得到第二特征数据;全局特征交叉子模块,用于将所述稀疏特征及稠密特征进行特征交叉,得到第三特征数据;模型训练子模块,用于将所述第一特征数据、第二特征数据及第三特征数据进行训练,得到所述预估模型。
[0013]进一步可选的,所述训练数据集生成模块包括:缺失值处理子模块,用于对所述第三数据集进行缺失值处理;特征选择子模块,用于对所述第三数据集进行特征选择;异常值剔除子模块,用于对所述第三数据集进行异常值剔除;无量纲化子模块,用于对所述第三数据集进行无量纲化;数据修改子模块,用于对所述第三数据集进行数据修正。
[0014]进一步可选的,所述第二数据集生成模块包括:用户维度画像生成子模块,用于提取所述广告日志数据中的用户特征字段,根据所述用户特征字段构建用户维度画像;广告维度画像生成子模块,用于提取所述广告日志数据中的广告特征字段,根据所述广告特征字段构建广告维度画像;媒体维度画像生成子模块,用于提取所述广告日志数据中的媒体特征字段,根据所述媒体特征字段构建媒体维度画像。
[0015]另一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的CTR预估方法。
[0016]上述技术方案具有如下有益效果:本专利技术通过FM对特征进行全量交互,通过CNN对局部特征进行交互,并采用内积的方式加强局部特征交互,融合了FM及CNN,弥补了稀疏特征全量交互时效果不理想的问题,提高了预估模型的预估准确率;通过CNN与内积的组合,减少了参数数量,降低了网络训练难度;通过对广告日志数据进行处理,第一数据集和第二数据集,提升了特征空间的丰富度;对第三数据集进行特征工程处理,提高数据质量、减少冗余数据,进而提高模型的预估准确率及提高模型训练的效率。
附图说明
[0017]为了更清楚地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种CTR预估方法,其特征在于,包括:获取预设天数内的广告日志数据,按目标键值对所述广告日志数据进行统计计算,得到统计计算结果,根据用户点击行为生成每条目标键值下的标签,将每条目标键值下对应的统计计算结果与标签合并,得到第一数据集;根据所述广告日志数据构建多维画像,将所述多维画像作为第二数据集;以目标键值为数据标识,将所述第一数据集及第二数据集合并为第三数据集;对第三数据集进行特征工程处理,得到训练数据集;采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型;使用预估模型对待测数据进行CTR预估,得到预估的CTR结果。2.根据权利要求1所述的CTR预估方法,其特征在于,所述采用CNN算法及内积算法对训练数据集进行局部特征交叉,采用FM算法对训练数据集进行全局特征交叉,训练得到预估模型包括:识别所述训练数据集中的稀疏特征及稠密特征;将所述稀疏特征依次经过CNN算法及内积算法进行特征交叉,得到第一特征数据;将稠密特征与向量化后的稀疏特征进行拼接,得到第二特征数据;将所述稀疏特征及稠密特征进行特征交叉,得到第三特征数据;将所述第一特征数据、第二特征数据及第三特征数据进行训练,得到所述预估模型。3.根据权利要求1所述的CTR预估方法,其特征在于,所述对第三数据集进行特征工程处理包括:对所述第三数据集进行缺失值处理;和/或对所述第三数据集进行特征选择;和/或对所述第三数据集进行异常值剔除;和/或对所述第三数据集进行无量纲化;和/或对所述第三数据集进行数据修正。4.根据权利要求1所述的CTR预估方法,其特征在于:所述目标键值为用户ID、广告ID及媒体ID的组合。5.根据权利要求1所述的CTR预估方法,其特征在于,根据所述广告日志数据构建多维画像,包括:提取所述广告日志数据中的用户特征字段,根据所述用户特征字段构建用户维度画像;提取所述广告日志数据中的广告特征字段,根据所述广告特征字段构建广告维度画像;提取所述广告日志数据中的媒体特征字段,根据所述媒体特征字段构建媒体维度画像。6.一种CTR预估装置,其特征在于,包括:第一数据集生成模块,用于获取预设天数内的广告日志数据,按目标键值对所述广告日志数据进行统计计算,得到统计计算结果,根据用户点击行为生成每条目标键值下的...

【专利技术属性】
技术研发人员:王贵森任万鑫
申请(专利权)人:成都人人互娱科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1