广告投放模型的训练特征选取方法、系统、设备及介质技术方案

技术编号:29588456 阅读:12 留言:0更新日期:2021-08-06 19:48
本发明专利技术属于广告投放领域,公开了一种广告投放模型的训练特征选取方法、系统、设备及介质,包括以下步骤:获取若干广告投放历史数据样本,将若干广告投放历史数据样本分为训练集和测试集;获取广告投放模型的若干初始训练特征;遍历各初始训练特征,获取训练集内当前初始训练特征的各特征值的历史CTR,得到各初始训练特征的各特征值的历史CTR;根据各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值;将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。每个训练特征的重要度度量方案跟模型效果评估一致,均是使用AUC值,提升广告投放模型的准确性;只需要进行数据样本及各特征值的统计,不需要进行模型训练,选取成本低。

【技术实现步骤摘要】
广告投放模型的训练特征选取方法、系统、设备及介质
本专利技术属于广告投放领域,涉及一种广告投放模型的训练特征选取方法、系统、设备及介质。
技术介绍
点击率(Click-ThroughRate,CTR)预估是广告投放中的一个重要环节,能够帮助广告平台实现广告曝光价值的判断。CTR预估从大量的展示日志中学习,展示日志记录了大量的广告,在广告上下文的情况下投给了相应的用户,以及相应的用户是否点击的数据。CTR预估将展示日志和Meta数据转化为数据样本,数据样本形如:广告相关特征[Feature1,Feature2,Feature3...]+上下文特征[Feature1,Feature2,Feature3...]+用户特征[Feature1,Feature2,Feature3...]+是否点击,通过数据样本训练广告投放模型,实现精准的广告投放。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键,特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程,特征工程又包含了FeatureSelection(特征选择)、FeatureExtraction(特征提取)和Featureconstruction(特征构造)等子问题。其中,特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。目前常用的特征选取方案有以下几种:过滤法:按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。包装法:根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征,嵌入法类似于过滤法,但是是通过训练来确定特征的优劣。但是,在广告投放这个特定场景中,基于CTR预估上述方案有以下缺点:其中,过滤法只考虑了相关性,但是CTR预估优化是广告排序的正确性,即AUC(AreaUnderCurve),所以过滤法产出的结果并不是跟目标线性相关。包装法和嵌入法都需要大量的模型训练,但是在CTR预估的场景下,训练样本通常是都是百万甚至千万级别的,模型训练成本较高。
技术实现思路
本专利技术的目的在于克服上述现有技术中,现有的广告投放模型训练特征选取方法准确性差,成本高的缺点,提供一种广告投放模型的训练特征选取方法、系统、设备及介质。为达到上述目的,本专利技术采用以下技术方案予以实现:本专利技术第一方面,一种广告投放模型的训练特征选取方法,包括以下步骤:获取若干广告投放历史数据样本,将若干广告投放历史数据样本分为训练集和测试集;获取广告投放模型的若干初始训练特征;遍历各初始训练特征,获取训练集内当前初始训练特征的各特征值的历史CTR,得到各初始训练特征的各特征值的历史CTR;根据各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值;将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。本专利技术广告投放模型的训练特征选取方法进一步的改进在于:所述将广告投放历史数据样本分为训练集和测试集的具体方法为:按照时间的先后顺序,将广告投放历史数据样本分为训练集和测试集。所述测试集为一天的广告投放历史数据样本。所述获取训练集内当前初始训练特征的各特征值的历史CTR的具体方法为:遍历各当前初始训练特征的各特征值,通过下式得到各特征值的历史CTR:特征值的历史CTR=M/N其中,M表示训练集内当前特征值的所有广告投放历史数据样本中标记为点击的广告投放历史数据样本条数,N表示训练集内当前特征值的所有广告投放历史数据样本条数。所述获取各初始训练特征在测试集上的AUC值的具体方法为:遍历各初始训练特,通过下式获取各初始训练特征在测试集上的AUC值:AUC=roc_auc_score(y_label,y_score)其中,roc_auc_score为sklearn中的AUC计算函数,y_label={l1,…,lt,…,ln},lt为测试集内第t条广告投放历史数据样本的标记值,标记为点击时标记值为1,否则标记值为0;y_score={s1,…,st,…,sn},st为测试集内第t条广告投放历史数据样本的当前初始训练特征的特征值的历史CTR。所述预设数量为50~100。本专利技术第二方面,一种广告投放模型的训练特征选取系统,包括:样本划分模块,用于获取若干广告投放历史数据样本,将若干广告投放历史数据样本分为训练集和测试集;获取模块,用于获取广告投放模型的若干初始训练特征;历史CTR确定模块,用于遍历各初始训练特征,获取训练集内当前初始训练特征的各特征值的历史CTR,得到各初始训练特征的各特征值的历史CTR;AUC值确定模块,用于根据各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值;选取模块,用于将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。本专利技术第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述广告投放模型的训练特征选取方法的步骤。本专利技术第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述广告投放模型的训练特征选取方法的步骤。与现有技术相比,本专利技术具有以下有益效果:本专利技术广告投放模型的训练特征选取方法,通过获取离线的广告投放历史数据,并将样本分为训练集和测试集,然后获取广告投放模型的若干初始训练特征,并根据其得到各初始训练特征的各特征值的历史CTR,进而由各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值,根据AUC值选取广告投放模型的训练特征,每个训练特征的重要度度量方案跟模型效果评估一致,均是使用AUC值,保证训练特征的重要跟整体的优化目标一致,提升广告投放模型的准确性。同时,只需要进行数据样本及各特征值的统计,不需要进行模型训练,选取的成本较低。附图说明图1为本专利技术的广告投放模型的训练特征选取方法流程图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的本文档来自技高网
...

【技术保护点】
1.一种广告投放模型的训练特征选取方法,其特征在于,包括以下步骤:/n获取若干广告投放历史数据样本,将若干广告投放历史数据样本分为训练集和测试集;/n获取广告投放模型的若干初始训练特征;/n遍历各初始训练特征,获取训练集内当前初始训练特征的各特征值的历史CTR,得到各初始训练特征的各特征值的历史CTR;/n根据各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值;/n将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。/n

【技术特征摘要】
1.一种广告投放模型的训练特征选取方法,其特征在于,包括以下步骤:
获取若干广告投放历史数据样本,将若干广告投放历史数据样本分为训练集和测试集;
获取广告投放模型的若干初始训练特征;
遍历各初始训练特征,获取训练集内当前初始训练特征的各特征值的历史CTR,得到各初始训练特征的各特征值的历史CTR;
根据各初始训练特征的各特征值的历史CTR,获取各初始训练特征在测试集上的AUC值;
将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。


2.根据权利要求1所述的广告投放模型的训练特征选取方法,其特征在于,所述将广告投放历史数据样本分为训练集和测试集的具体方法为:
按照时间的先后顺序,将广告投放历史数据样本分为训练集和测试集。


3.根据权利要求2所述的广告投放模型的训练特征选取方法,其特征在于,所述测试集为一天的广告投放历史数据样本。


4.根据权利要求1所述的广告投放模型的训练特征选取方法,其特征在于,所述获取训练集内当前初始训练特征的各特征值的历史CTR的具体方法为:
遍历各当前初始训练特征的各特征值,通过下式得到各特征值的历史CTR:
特征值的历史CTR=M/N
其中,M表示训练集内当前特征值的所有广告投放历史数据样本中标记为点击的广告投放历史数据样本条数,N表示训练集内当前特征值的所有广告投放历史数据样本条数。


5.根据权利要求1所述的广告投放模型的训练特征选取方法,其特征在于,所述获取各初始训练特征在测试集上的AUC值的具体方法为:
遍历各初始训练特,通过下式获取各初始训练特征在测试集上的AUC值:
AUC=roc_auc_s...

【专利技术属性】
技术研发人员:张浩
申请(专利权)人:西安点告网络科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1