基于点击率预估模型的广告推荐方法、系统及存储介质技术方案

技术编号:29588449 阅读:14 留言:0更新日期:2021-08-06 19:48
基于点击率预估模型的广告推荐方法、系统及存储介质,推荐方法包括:数据收集,对业务数据进行清洗,构造数据集;对数据集进行特征工程处理,生成训练样本,供模型训练使用;采用Wide&Deep算法进行模型训练;调整模型结构参数,确定最好的超参组合,进行模型优化;优化模型与线上模型做A/B实验,将点击率提升的模型替换旧模型;将特征数据实时更新至云存储器OSS,使用Tensorflow Serving生成GRPC接口,对候选的广告列表批量进行点击率预估,取点击率最高的广告,且点击率>0.5,进行推荐曝光。本发明专利技术对于广告推荐能够起到很好的效果,提高点击率预估的准确性,同时有利于提高流失用户的召回率。

【技术实现步骤摘要】
基于点击率预估模型的广告推荐方法、系统及存储介质
本专利技术属于广告推荐领域,具体涉及一种基于点击率预估模型的广告推荐方法、系统及存储介质。
技术介绍
点击率预估是DSP流量分配的核心依据之一,同时点击率预估的准确性对于在线广告的推荐具有非常重要的作用。近几年,点击率预估模型从传统的机器学习模型已经转变为深度学习模型,常见的点击率预估模型包括LR、FM、Wide&Deep、DeepFM等。由于广告数据的天然特性:数据量大、维度高、数据稀疏,使得广告的点击率预估具有一定的挑战性。数据和特征决定了机器学习的上限,而模型和算法只是无限逼近这个上限。结合业务数据特性,选择合适的算法模型,进行特征工程创新处理、网络结构设计以及Embedding方法调优则是一个好模型落地的关键。现有的模型预估准确性还有待于提高。
技术实现思路
本专利技术的目的在于针对上述现有技术中针对广告数据的模型预估准确性不高的问题,提供一种基于点击率预估模型的广告推荐方法、系统及存储介质,对于广告推荐能够起到很好的效果,提高点击率预估的准确性,同时有利于提高流失用户的召回率。为了实现上述目的,本专利技术有如下的技术方案:一种基于点击率预估模型的广告推荐方法,包括以下步骤:-数据收集,对业务数据进行清洗,构造数据集;-对数据集进行特征工程处理,生成训练样本,供模型训练使用;-基于Tensorflow框架,采用Wide&Deep算法进行模型训练;-调整模型结构参数,确定最好的超参组合,进行模型优化;-优化模型与线上模型做A/B实验,将点击率提升的模型替换旧模型;-将特征数据实时更新至云存储器OSS,使用TensorflowServing生成GRPC接口,对候选的广告列表批量进行点击率预估,取点击率最高的广告,且点击率>0.5,进行推荐曝光。在本专利技术的一种实施例当中,数据收集的对象包括用户、广告、请求上下文、媒体;其中,用户特征数据包括:用户ID、用户商品偏好、用户标签、用户历史漏斗深度、最近3/7/14/28天曝光次数、点击次数、浏览次数、加购次数、购买次数、点击率;广告特征数据包括:广告ID、广告类别、广告素材ID、广告模版ID、曝光次数、点击次数、点击率;请求上下文特征数据包括:时间、国家、城市、渠道、媒体、版位尺寸、设备类型、展示类型;媒体特征数据包括:类别、排名、PV、UV、点击率。在本专利技术的一种实施例当中,对数据集进行特征工程处理的具体步骤如下:步骤1)样本采样,加入正负样本惩罚权重;步骤2)对数据集中的数据划分为连续特征与离散特征进行归一化与缺失值处理;步骤3)进行特征交叉组合。在本专利技术的一种实施例当中,用户特征数据中的连续特征包括曝光次数、点击次数、浏览次数、点击率,广告特征数据中的连续特征包括曝光次数、点击次数、点击率,媒体特征数据中的连续特征包括排名、PV、UV、历史点击率,对以上连续特征采用对数函数进行归一化;同时对部分连续特征,包括媒体特征数据中的排名以及用户特征数据的加购次数、购买次数进行等频分桶离散化。离散特征包括用户ID、用户商品偏好、用户标签、用户历史漏斗深度、广告ID、广告类别、广告素材ID、广告模版ID、时间、国家、城市、渠道、媒体、版位尺寸、设备类型、展示类型以及类别,对以上离散特征使用Hash方式进行One-Hot编码。在本专利技术的一种实施例当中,所述的缺失值处理具体包括:进行特征分布统计,分析缺失的比例,针对达到80%以上缺失,则放弃掉该特征;针对离散特征采用默认值填充,针对连续特征采用均值填充。在本专利技术的一种实施例当中,所述步骤3)进行特征交叉组合时,将用户特征及广告、媒体特征进行交叉,包括将用户商品偏好、用户标签、用户历史漏斗深度与广告ID、广告素材ID、广告类别以及类别进行交叉组合。在本专利技术的一种实施例当中,采用Wide&Deep算法进行模型训练的具体步骤如下:在Wide层输入离散特征以及交叉组合特征,Deep层输入连续特征,采用历史数据集作为训练集,最近1天的数据集作为测试集;进行模型调优,加入Dropout与L2正则防止模型过拟合,引入BatchNormalization加快模型的收敛;对比不同学习器,选择效果较好的Adm;同时尝试不同LearningRate、BatchSize以及Embedding参数调优,进行训练模型,最终生成SavedModel格式模型文件。在本专利技术的一种实施例当中,使用TensorflowServing生成GRPC接口方式的具体步骤包括:步骤1)启动Docker,拉取TensorflowServinDocker镜像;步骤2)生成预测接口;步骤3)线上部署,配置统一域名Tfserve,生成最终打分接口服务;步骤4)线上推理,以批量方式构造请求数据,调取预测接口,最终实现能够在10ms之内返回50条广告的预测结果。本专利技术还提供一种基于点击率预估模型的广告推荐系统,包括:数据集构造模块,用于进行数据收集,对业务数据进行清洗,构造数据集;训练样本生成模块,用于对数据集进行特征工程处理,生成训练样本;模型训练模块,用于基于Tensorflow框架,采用Wide&Deep算法进行模型训练;模型优化模块,用于调整模型结构参数,确定最好的超参组合,进行模型优化;并且将优化模型与线上模型做A/B实验,将点击率提升的模型替换旧模型;推荐模块,用于将特征数据实时的更新至云存储器OSS,使用TensorflowServing生成GRPC接口,对候选的广告列表批量进行点击率预估,根据点击率进行推荐曝光。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于点击率预估模型的广告推荐方法的步骤。相较于现有技术,本专利技术至少具有如下的有益效果:本专利技术对于广告推荐能够起到很好的效果,将用户商品偏好,用户标签,用户历史行为漏斗深度等人工设计的抽象特征及用户偏好特征与广告特征进行交叉组合,能够使模型具有较好的记忆能力;同时采用Deep模型,通过Embedding方法,使用低维稠密特征输入,使得特征向量不同维度做充分的交叉,加强了模型的泛化能力,提高了模型的召回率。同时,特征工程部分,基于业务数据大量细致的挖掘分析组合特征,使得特征具有更强的灵活性,增强了模型的可解释性。实验通过离线AUC和线上ABTest进行评估。Wide&Deep模型的AUC超过原有的LR模型。在ABTest线上实验中,Wide&Deep模型比LR模型,点击率提升27%。附图说明为了更加清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作以简单地介绍,应当理解,以下附图仅示出了本专利技术部分实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。...

【技术保护点】
1.一种基于点击率预估模型的广告推荐方法,其特征在于,包括以下步骤:/n-数据收集,对业务数据进行清洗,构造数据集;/n-对数据集进行特征工程处理,生成训练样本,供模型训练使用;/n-基于Tensorflow框架,采用Wide&Deep算法进行模型训练;/n-调整模型结构参数,确定最好的超参组合,进行模型优化;/n-优化模型与线上模型做A/B实验,将点击率提升的模型替换旧模型;/n-将特征数据实时更新至云存储器OSS,使用Tensorflow Serving生成GRPC接口,对候选的广告列表批量进行点击率预估,取点击率最高的广告,且点击率>0.5,进行推荐曝光。/n

【技术特征摘要】
1.一种基于点击率预估模型的广告推荐方法,其特征在于,包括以下步骤:
-数据收集,对业务数据进行清洗,构造数据集;
-对数据集进行特征工程处理,生成训练样本,供模型训练使用;
-基于Tensorflow框架,采用Wide&Deep算法进行模型训练;
-调整模型结构参数,确定最好的超参组合,进行模型优化;
-优化模型与线上模型做A/B实验,将点击率提升的模型替换旧模型;
-将特征数据实时更新至云存储器OSS,使用TensorflowServing生成GRPC接口,对候选的广告列表批量进行点击率预估,取点击率最高的广告,且点击率>0.5,进行推荐曝光。


2.根据权利要求1所述基于点击率预估模型的广告推荐方法,其特征在于:数据收集的对象包括用户、广告、请求上下文、媒体;其中,用户特征数据包括:用户ID、用户商品偏好、用户标签、用户历史漏斗深度、最近3/7/14/28天曝光次数、点击次数、浏览次数、加购次数、购买次数、点击率;广告特征数据包括:广告ID、广告类别、广告素材ID、广告模版ID、曝光次数、点击次数、点击率;请求上下文特征数据包括:时间、国家、城市、渠道、媒体、版位尺寸、设备类型、展示类型;媒体特征数据包括:类别、排名、PV、UV、点击率。


3.根据权利要求2所述基于点击率预估模型的广告推荐方法,其特征在于,对数据集进行特征工程处理的具体步骤如下:
步骤1)样本采样,加入正负样本惩罚权重;
步骤2)对数据集中的数据划分为连续特征与离散特征进行归一化与缺失值处理;
步骤3)进行特征交叉组合。


4.根据权利要求3所述基于点击率预估模型的广告推荐方法,其特征在于:
用户特征数据中的连续特征包括曝光次数、点击次数、浏览次数、点击率,广告特征数据中的连续特征包括曝光次数、点击次数、点击率,媒体特征数据中的连续特征包括排名、PV、UV、历史点击率,对以上连续特征采用对数函数进行归一化;同时对部分连续特征,包括媒体特征数据中的排名以及用户特征数据的加购次数、购买次数进行等频分桶离散化。
离散特征包括用户ID、用户商品偏好、用户标签、用户历史漏斗深度、广告ID、广告类别、广告素材ID、广告模版ID、时间、国家、城市、渠道、媒体、版位尺寸、设备类型、展示类型以及类别,对以上离散特征使用Hash方式进行One-Hot编码。


5.根据权利要求4所述基于点击率预估模型的广告推荐方法,其特征在于,所述的缺失值处理具体包括:进行特征分布统计,分析缺失的比例,针对达...

【专利技术属性】
技术研发人员:赵巧姣张浩杨豪
申请(专利权)人:西安点告网络科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1