广告投放模型统计类特征离散化方法、系统、设备及介质技术方案

技术编号:29588459 阅读:15 留言:0更新日期:2021-08-06 19:48
本发明专利技术属于广告投放领域,公开了一种广告投放模型统计类特征离散化方法、系统、设备及介质,包括获取若干广告投放历史数据样本,获取各广告投放历史数据样本的统计类特征的CTR值;按照统计类特征的CTR值从小到大的顺序,将统计类特征分为连续的n组得到连续的n个初始离散特征;将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并,至任一初始离散特征的模型权重均>前一个初始离散特征的模型权重,得到最终的离散特征。分段方式合理,统计的CTR值跟最终模型的权重一致,模型鲁棒性强。

【技术实现步骤摘要】
广告投放模型统计类特征离散化方法、系统、设备及介质
本专利技术属于广告投放领域,涉及一种广告投放模型统计类特征离散化方法、系统、设备及介质。
技术介绍
一般来说,想要通过历史数据来预估未来,最简单最直接的方案就是基于统计,例如要看一个广告今天的点击率(Click-ThroughRate,CTR)如何,只需要统计过去一段时间内这个广告每天的点击率情况,或者一个媒体上某个广告位的点击率,只需要统计过去一段时间这个媒体的这个广告位平均的点击率。统计类特征,例如:广告ID[特征维度]最近3天[时间周期]的点击率,任意特征维度*时间周期组合都可以是一个统计特征,这一类统计类特征在广告点击率预估的模型占比大概在30%左右。由于广告投放模型有部分是基于逻辑回归、因子分解机等模型建立的,但是这部分模型不支持连续性特征输入。并且,在模型训练时使用离散特征能够增强模型的鲁棒性,降低过拟合风险,易于模型快速迭代。因此,在广告投放模型的训练中,一般将统计类特征进行离散化处理。目前,将统计类特征进行离散化处理的方案主要包括等宽离散法和等频离散法。其中,等宽离散法:等距区间或自定义区间进行离散,优点是灵活,保持原有数据分布。等频离散法:根据数据的频率分布进行排序,然后按照频率进行离散,好处是数据变为均匀分布。但是,这两种离散方式存在以下问题:1、并没有对于划分方案好坏的度量,基本都是靠算法工程师的经验,分段合理性存在着多种评判方案。2、特征离散化后,没法保持跟原有统计值相同的分布,分段后各段特征经过模型计算后的权重并不能保证和原始趋势一致。
技术实现思路
本专利技术的目的在于克服上述现有技术中,将统计类特征进行离散化处理时,由于分段合理性差,破坏了特征趋势,导致统计类特征失真的缺点,提供一种广告投放模型统计类特征离散化方法、系统、设备及介质。为达到上述目的,本专利技术采用以下技术方案予以实现:本专利技术第一方面,一种广告投放模型统计类特征离散化方法,包括以下步骤:S1:获取若干广告投放历史数据样本,获取各广告投放历史数据样本中的统计类特征的CTR值;S2:按照统计类特征的CTR值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;S3:将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;S4:遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;S5:重复S3~S4,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。本专利技术广告投放模型统计类特征离散化方法进一步的改进在于:所述获取各广告投放历史数据样本的统计类特征的CTR值的具体方法为:获取各广告投放历史数据样本中统计类特征的维度特征的特征值,得到若干维度特征的特征值;遍历各维度特征的特征值,由下式得到各维度特征的特征值的CTR值:维度特征的特征值的CTR值=M/N其中,M表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值且标记为点击的广告投放历史数据样本条数;N表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值的广告投放历史数据样本条数;将各广告投放历史数据样本中维度特征的特征值的CTR值,作为各广告投放历史数据样本的统计类特征的CTR值。所述将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征分为连续的10组。所述将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征,按照等频分组的方式分为连续的n组。所述权重确定模型为经过历史广告投放历史数据样本训练的逻辑回归模型。所述将各初始离散特征分别输入预设的权重确定模型的具体方法为:将各初始离散特征进行one-hot编码,将编码后的各初始离散特征分别输入预设的权重确定模型。本专利技术第二方面,一种广告投放模型统计类特征离散化方法,包括:获取模块,用于获取若干广告投放历史数据样本,获取各广告投放历史数据样本的统计类特征的CTR值;初始离散特征确定模块,用于按照统计类特征的CTR值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;权重确定模块,用于将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;初始离散特征更新模块,用于遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;迭代模块,用于迭代触发权重确定模块和初始离散特征更新模块,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。本专利技术第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述广告投放模型统计类特征离散化方法的步骤。本专利技术第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述广告投放模型统计类特征离散化方法的步骤。与现有技术相比,本专利技术具有以下有益效果:本专利技术广告投放模型统计类特征离散化方法,通过获取统计类特征的CTR值,基于该CTR值进行排序,将所有广告投放历史数据样本中的统计类特征分为连续的若干组,得到连续的若干个初始离散特征;然后通过预设的权重确定模型,来确定各初始离散特征的模型权重,并遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并,使得离散化以后的统计类特征的历史CTR值低的话,那么其对应的模型权重也就低,保证离线统计的CTR值能够跟最终的模型权重趋势一致,不受个别区间波动的影响,保证历史的表现和预测的表现一致。采用通过该方式离散化的统计类特征进行广告投放模型的训练,能够有效提高广告投放模型的准确性和鲁棒性。附图说明图1为本专利技术的广告投放模型统计类特征离散化方法流程图;图2为本专利技术的广告投放历史数据样本分段示意图;图3为本专利技术的相邻两初始离散特征的模型权重第一种情况示意图;图4为本专利技术的相邻两初始离散特征的模型权重第二种情况示意图;图5为本专利技术的相邻两初始离散特征的模型权重第三种情况示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性本文档来自技高网
...

【技术保护点】
1.一种广告投放模型统计类特征离散化方法,其特征在于,包括以下步骤:/nS1:获取若干广告投放历史数据样本,获取各广告投放历史数据样本中的统计类特征的CTR值;/nS2:按照统计类特征的CTR值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;/nS3:将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;/nS4:遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;/nS5:重复S3~S4,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。/n

【技术特征摘要】
1.一种广告投放模型统计类特征离散化方法,其特征在于,包括以下步骤:
S1:获取若干广告投放历史数据样本,获取各广告投放历史数据样本中的统计类特征的CTR值;
S2:按照统计类特征的CTR值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;
S3:将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;
S4:遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;
S5:重复S3~S4,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。


2.根据权利要求1所述的广告投放模型统计类特征离散化方法,其特征在于,所述获取各广告投放历史数据样本的统计类特征的CTR值的具体方法为:
获取各广告投放历史数据样本中统计类特征的维度特征的特征值,得到若干维度特征的特征值;
遍历各维度特征的特征值,由下式得到各维度特征的特征值的CTR值:
维度特征的特征值的CTR值=M/N
其中,M表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值且标记为点击的广告投放历史数据样本条数;N表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值的广告投放历史数据样本条数;
将各广告投放历史数据样本中维度特征的特征值的CTR值,作为各广告投放历史数据样本的统计类特征的CTR值。


3.根据权利要求1所述的广告投放模型统计类特征离散化方法,其特征在于,所述将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征分为连续的10组。


4.根据权利要求1所述的广告投放模型统计类特征离散化方法,其特征在于,所述将所有广告投放历史数据样本中...

【专利技术属性】
技术研发人员:张浩
申请(专利权)人:西安点告网络科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1