特征聚合的方法及装置制造方法及图纸

技术编号:22263062 阅读:61 留言:0更新日期:2019-10-10 15:20
本发明专利技术实施例提供一种特征聚合的方法及装置,涉及智能广告技术领域,用以解决现有技术中存在的特征样本过少,从而导致预估的准确性较低的问题。本方案为:获取广告的特征信息,特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据广告的PV和CTR确定广告特征点;对二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;根据M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的广告特征点的PV之和,每个特征组的CTR为落入每个网格的广告特征点的CTR之和;其中,M和N是大于或等于2的整数。

The Method and Device of Characteristic Aggregation

【技术实现步骤摘要】
特征聚合的方法及装置
本专利技术涉及智能广告
,具体涉及一种特征聚合的方法及装置。
技术介绍
需求方平台(英文全称:DemandSidePlatform,简称:DSP)是一个系统,也是一种在线广告平台,汇集了各种广告交易平台(AdvertisementExchange)的库存。DSP服务于广告主,对接ADX的流量,集合了众多小媒体的流量,这样使得广告的点击率很低,数据比较稀疏,直接采用这些点击率进行预估时,会导致预估的准确率较低。因此,需要先解决特征样本过少的问题。目前均是通过特征聚合的方式实现降维,从而增加样本数量。现有技术中采用的K-means算法进行特征聚合,聚合的特征组的特征数量无法控制,使得聚合的特征组的特征数量可大可小,这样有些特征组的特征数量仍然较少,从而导致预估的准确性依然很低。
技术实现思路
本专利技术的实施例提供一种特征聚合的方法及装置,解决现有技术中存在的特征样本过少,从而导致预估的准确性较低的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:本专利技术实施例的第一方面,提供一种特征聚合的方法,所述方法包括:获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据所述广告的PV和CTR确定广告特征点;对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。在一个实施例中,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的PV排序;按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。在一个实施例中,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。在一个实施例中,所述方法还包括:根据CTR预估模型的权重验证聚合结果。在一个实施例中,所述根据CTR预估模型的权重验证聚合结果,包括:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。在一个实施例中,所述M为20,所述N为5。本专利技术实施例的第二方面,提供一种广告点击率预估的方法,所述方法包括:通过第一方面所述的方法生成聚合后的特征组;根据所述聚合后的特征组训练点击率预估模型;根据训练后的点击率预估模型预估待投放广告的点击率。本专利技术实施例的第三方面,提供一种特征聚合的装置,所述装置包括:获取模块,被配置为用于获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;确定模块,被配置为用于在二维坐标系中根据所述广告的PV和CTR确定广告特征点;划分模块,被配置为用于对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;输出模块,被配置为用于根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。在一个实施例中,所述划分模块,被配置为具体用于:按照从小到大的顺序对广告特征点中的PV排序;按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。在一个实施例中,所述划分模块,被配置为具体用于:按照从小到大的顺序对广告特征点中的CTR排序,按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。在一个实施例中,所述装置还包括:验证模块,被配置为用于根据CTR预估模型的打分结果验证聚合结果。在一个实施例中,所述验证模块被配置为具体用于:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。本专利技术实施例的第四方面,提供一种广告点击率预估的装置,所述装置包括:生成模块,被配置为用于通过第三方面所述的装置生成聚合后的特征组;训练模块,被配置为用于根据所述聚合后的特征组训练点击率预估模型;预估模块,被配置为用于根据训练后的点击率预估模型预估待投放广告的点击率。本专利技术实施例提供的第五方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面或第二方面所述的方法。本专利技术实施例的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面或第二方面所述的方法。相比于现有技术,本专利技术实施例提供的特征聚合的方法及装置,通过对二维坐标系划分形成M*N个网格,从而根据该M*N个网格输出聚合后的特征组。由于本案中在进行网格划分时,保证落入每列的PV的总和相同以及落入同列的每个网格的PV的总和相同,或者落入每行的PV的总和相同以及落入同行的每个网格的PV的总和相同,这样使得每个网格的PV值较为均匀,从而使得最终得到的聚合后的特征组中的样本数量足够,进而使得预估的准确性较高。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解。应当明白的是附图不必按比例绘制。在附图中:图1为本专利技术实施例提供的一种特征聚合的方法的流程图;图2为本专利技术实施例提供的一种特征聚合时形成的M*N个网格的示意图;图3为本专利技术实施例提供的另一种特征聚合时形成的M*N个网格的示意图;图4为本专利技术实施例提供的CTR与模型训练出来的权重间的关系图;图5为本专利技术实施例提供的一种广告点击率预估的方法的流程示意图;图6为本专利技术实施例提供的一种特征聚合的装置的结构示意图;图7为本专利技术实施例提供的一种广告点击率预估的装置的结构示意图;图8为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了便于清楚描述本专利技术实施例的技术方案,在本专利技术的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可本文档来自技高网...

【技术保护点】
1.一种特征聚合的方法,其特征在于,所述方法包括:获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据所述广告的PV和CTR确定广告特征点;对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;以及根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。

【技术特征摘要】
1.一种特征聚合的方法,其特征在于,所述方法包括:获取广告的特征信息,所述特征信息包括广告的访问量PV和点击率CTR;在二维坐标系中根据所述广告的PV和CTR确定广告特征点;对所述二维坐标系划分形成M*N个网格,以使得落入每列的PV的总和相同且落入同列的每个网格的PV的总和相同,或者以使得落入每行的PV的总和相同且落入同行的每个网格的PV的总和相同;以及根据所述M*N个网格输出聚合后的特征组,每个特征组的PV为落入每个网格的所述广告特征点的PV之和,每个特征组的CTR为落入每个网格的所述广告特征点的CTR之和;其中,所述M和N是大于或等于2的整数。2.根据权利要求1所述的方法,其特征在于,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的PV排序;按照PV将所述二维坐标系中的X轴划分N列,每列的PV的总和相同;以及按照CTR分别将所述N列中的每列划分为M行,同列的每个格子的PV的总和相同。3.根据权利要求1所述的方法,其特征在于,所述对所述二维坐标系划分形成M*N个网格,包括:按照从小到大的顺序对广告特征点中的CTR排序;按照CTR值将所述二维坐标系中的Y轴划分为M行,每行的CTR的总和相同;以及按照PV分别将所述M行中的每行划分为N列,同行的每个格子的PV的总和相同。4.根据权利要求2所述的方法,其特征在于,还包括:根据CTR预估模型的权重验证聚合结果。5.根据权利要求4所述的方法,其特征在于,所述根据CTR预估模型的权重验证聚合结果,包括:当CTR预估模型的权重和所述聚合结果不一致时,调整M和N的大小,直到所述CTR预估模型的权重和所述聚合结果保持一致。6...

【专利技术属性】
技术研发人员:张浩
申请(专利权)人:西安点告网络科技有限公司
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1