一种基于计算广告背景下的相似人群拓展方法以及装置制造方法及图纸

技术编号:28711602 阅读:16 留言:0更新日期:2021-06-06 00:21
本发明专利技术提供了一种基于计算广告背景下的相似人群拓展方法以及装置,该方法包括:获取正样本、负样本;根据预设负样本采样条件对负样本进行分层采样处理,得到采样后的负样本;分别对广告前端监测数据以及第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型;在第一模型以及第二模型中,分别调整正样本的权重参数,对应得到第三模型以及第四模型;对第三模型以及第四模型进行融合打分,得到人群打分信息;选出人群打分信息中的模糊打分区域;对模糊打分区域进一步构建模型进行过滤筛选,得到第一相似人群;根据预设规则标签以及广告前端监测数据对第一相似人群进行筛选过滤,得到相似人群。得到相似人群。得到相似人群。

【技术实现步骤摘要】
一种基于计算广告背景下的相似人群拓展方法以及装置


[0001]本专利技术涉及信息处理
,尤其涉及一种基于计算广告背景下的相似人群拓展方法以及装置。

技术介绍

[0002]在互联网商业应用中,许多广告主在“搜寻潜客”时,都会遇到如难以识别高潜人群、难于平衡成本与规模等问题,在这一背景下则产生了Lookalike(相似人群拓展)人群定向技术,该技术可以利用广告主第一方数据,基于少量的种子用户,通过大数据分析和机器学习拓展出和种子相似的用户人群,而这些拓展出的相似人群最终也很有可能成为广告主的目标客户,从而提升广告效果。
[0003]Lookalike技术主流方法:方法一,显示定位,广告主根据标签进行人群选择。这种方法简单,直观,广告主通过用户画像标签,筛选性别、年龄、偏好等标签,从而直接筛选目标人群。但是该方法需要广告主大量人工参与试错,且该方法具有一定的局限性,人工打出的标签不能完全概括目标人群的所有属性,比如不一定男性就不关心护肤品等。显示定位的方法期长、成本高,而且很难通用。
[0004]方法二,隐式定位,通过机器学习的方法,对种子用户进行建模。隐式定位的方法几乎不需要广告主参与,只需要广告主提供目标人群(即种子用户)的特征,通过机器学习的方法,根据种子数据自动发现相似人群,有效规避了自定义标签面临的问题。
[0005]Lookalike技术难点,难点一:高潜力用户难寻、精准与规模之间难取平衡点是广告主所面临的两个主要难题,核心在于对大规模潜在用户的有效触及。效果和规模之间达成“帕累托最优”(最理想状态)显得相对棘手,具体为,广告主想要尽量触达潜在的目标客户,则会需要对大规模潜在用户都进行触达,人群的聚焦性也必然逐步降低,致使非目标人群的比例也随着流量的增加而增加,增加广告成本,但是如果广告主缩小触达规模,则会导致一部分目标人群未被触达,影响广告效果。
[0006]难点二:降低种子用户的敏感性:种子用户是拓展的前提和基础,种子用户的质量往往也是lookalike效果好坏的关键。但广告主很难提供数据量足够大且足够宽泛的种子包。这个时候就需要考虑如何在少量种子包且种子不一定能覆盖全局特征的情况下,进行有效的数据预处理和模型学习。

技术实现思路

[0007]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于计算广告背景下的相似人群拓展方法以及装置。
[0008]本专利技术解决上述技术问题的技术方案如下:一种基于计算广告背景下的相似人群拓展方法,其包括:
[0009]获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签;
[0010]根据所述预设负样本采样条件对所述负样本进行分层采样处理,得到采样后的负样本;
[0011]分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型;
[0012]在第一模型以及第二模型中,分别调整正样本的权重参数,对应得到第三模型以及第四模型;
[0013]对所述第三模型以及第四模型进行融合打分,得到人群打分信息;
[0014]选出所述人群打分信息中的模糊打分区域;
[0015]对所述模糊打分区域进一步构建模型进行过滤筛选,得到第一相似人群;
[0016]根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤,得到相似人群。
[0017]进一步地,所述分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型的步骤,包括:
[0018]对所述广告前端监测数据进行数值化编码处理,得到数值化编码的广告前端监测数据;
[0019]对所述数值化编码的广告前端监测数据进行数值分箱处理,得到客户关系管理类特征;
[0020]对所述客户关系管理类特征构建模型,得到第一模型。
[0021]进一步地,所述分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型的步骤,包括:
[0022]对所述第三方标签数据进行词嵌入处理,得到嵌入式第三方标签数据;
[0023]对所述嵌入式第三方标签数据构建模型,得到第二模型。
[0024]进一步地,所述选出所述人群打分信息中的模糊打分区域的步骤,包括:
[0025]将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。
[0026]进一步地,所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。
[0027]本专利技术的有益效果是:通过机器学习及规则包过滤的方法,从而保证尽可能触达目标人群的基础上,缩小触达人群规模,提高目标人群筛选的精准性。
[0028]此外,本专利技术还提供了一种基于计算广告背景下的相似人群拓展装置,其包括:
[0029]获取设备,用于获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签;
[0030]处理设备,用于根据所述预设负样本采样条件对所述负样本进行分层采样处理,得到采样后的负样本;
[0031]所述处理设备,还用于分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型;
[0032]所述处理设备,还用于在第一模型以及第二模型中,分别调整正样本的权重参数,对应得到第三模型以及第四模型;
[0033]所述处理设备,还用于对所述第三模型以及第四模型进行融合打分,得到人群打分信息;
[0034]所述处理设备,还用于选出所述人群打分信息中的模糊打分区域;
[0035]所述处理设备,还用于对所述模糊打分区域进一步构建模型进行过滤筛选,得到第一相似人群;
[0036]所述处理设备,还用于根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤,得到相似人群。
[0037]进一步地,所述处理设备,还用于对所述广告前端监测数据进行数值化编码处理,得到数值化编码的广告前端监测数据;
[0038]所述处理设备,还用于对所述数值化编码的广告前端监测数据进行数值分箱处理,得到客户关系管理类特征;
[0039]所述处理设备,还用于对所述客户关系管理类特征构建模型,得到第一模型。
[0040]进一步地,所述处理设备,还用于对所述第三方标签数据进行词嵌入处理,得到嵌入式第三方标签数据;
[0041]所述处理设备,还用于对所述嵌入式第三方标签数据构建模型,得到第二模型。
[0042]进一步地,所述处理设备,还用于将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。
[0043]进一步地,所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。...

【技术保护点】

【技术特征摘要】
1.一种基于计算广告背景下的相似人群拓展方法,其特征在于,包括:获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签;根据所述预设负样本采样条件对所述负样本进行分层采样处理,得到采样后的负样本;分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型;在第一模型以及第二模型中,分别调整正样本的权重参数,对应得到第三模型以及第四模型;对所述第三模型以及第四模型进行融合打分,得到人群打分信息;选出所述人群打分信息中的模糊打分区域;对所述模糊打分区域进一步构建模型进行过滤筛选,得到第一相似人群;根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤,得到相似人群。2.根据权利要求1所述的一种基于计算广告背景下的相似人群拓展方法,其特征在于,所述分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型的步骤,包括:对所述广告前端监测数据进行数值化编码处理,得到数值化编码的广告前端监测数据;对所述数值化编码的广告前端监测数据进行数值分箱处理,得到客户关系管理类特征;对所述客户关系管理类特征构建模型,得到第一模型。3.根据权利要求1所述的一种基于计算广告背景下的相似人群拓展方法,其特征在于,所述分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理,并分别构建模型,对应得到第一模型以及第二模型的步骤,包括:对所述第三方标签数据进行词嵌入处理,得到嵌入式第三方标签数据;对所述嵌入式第三方标签数据构建模型,得到第二模型。4.根据权利要求1所述的一种基于计算广告背景下的相似人群拓展方法,其特征在于,所述选出所述人群打分信息中的模糊打分区域的步骤,包括:将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。5.根据权利要求1所述的一种基于计算广告背景下的相似人群拓展方法,其特征在于,所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重...

【专利技术属性】
技术研发人员:吴园园段少毅
申请(专利权)人:恩亿科北京数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1