受众扩散方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:32458193 阅读:16 留言:0更新日期:2022-02-26 08:41
本申请涉及一种受众扩散方法、装置、设备及计算机可读介质。该方法包括:获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。本申请通过分析用户对所曝光广告的实际点击行为来进行受众扩散,相比分析可能存在缺失、虚假的人口统计学数据能够更加真实、准确地找到种子受众的扩散受众,解决受众扩散不准确的技术问题。技术问题。技术问题。

【技术实现步骤摘要】
受众扩散方法、装置、设备及计算机可读介质


[0001]本申请涉及大数据
,尤其涉及一种受众扩散方法、装置、设备及计算机可读介质。

技术介绍

[0002]随着电子商务平台的发展让中小企业进入消费者视野,大型企业广告主面临业务增长放缓和收入下降的危机。因此,品牌广告主开始更加关注在线广告对销售转化的贡献以及实际广告带来的收入。同时,大数据技术的出现颠覆了整个广告行业的运营模式与传统的评估广告效果的方法。通过分析和对海量用户行为数据进行建模,广告主可以准确到达目标消费者。因此,如何更好地利用广告监控数据,以优化广告服务和提高营销转化率成为重要课题。提高营销转化率一个典型的方式就是做受众扩展,也就是说,识别并触达跟种子受众具有相似兴趣的新受众。
[0003]目前,相关技术中,主要是通过受众的人口统计学信息,比如年龄、性别和所在地区的相似性来进行定位,比如某款化妆品种子受众是18

24岁的女性,那么就把种子受众以外的18

24岁女性当作新目标受众。然而,用户填写的人口统计学信息未必是真实的,甚至存在很多缺失,这就导致采用人口统计学信息进行受众扩散的方式会出现受众扩散不准确的问题,而且只根据人口统计学信息进行受众扩散的条件比较单一且笼统,即使根据准确、完整的人口统计学信息进行受众扩散,扩散结果也会存在很大的偏差。
[0004]针对受众扩散不准确的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请提供了一种受众扩散方法、装置、设备及计算机可读介质,以解决受众扩散不准确的技术问题。
[0006]根据本申请实施例的一个方面,本申请提供了一种受众扩散方法,包括:
[0007]获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
[0008]利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
[0009]将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
[0010]可选地,将特征向量输入预设的受众识别模型进行识别之前,所述方法还包括按照如下方式获取受众识别模型:
[0011]获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,标记信息用于指示所标记的受众为种子受众,第一正样本集、第二正样本集的样本数量少于待选样本集的样本数量;
[0012]利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确
定负样本集;
[0013]使用第二正样本集和负样本集继续训练二分类模型,得到受众识别模型。
[0014]可选地,利用第一正样本集和待选样本集对二分类模型进行预训练,以从待选样本集中确定负样本集包括:
[0015]将第一正样本集划分为第一子集和第二子集;
[0016]将待选样本集划分为多个子集,并随机选出一个或多个子集与第一子集组成验证集;
[0017]将第二子集和待选样本集的剩余子集作为训练集,迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中待选样本集的剩余子集的规模逐渐缩减。
[0018]可选地,使用训练集迭代训练二分类模型,直至二分类模型对验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集包括:
[0019]从待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用负样本集和第二子集训练二分类模型;
[0020]使用二分类模型对验证集和除负样本集外的待选样本集进行识别;
[0021]基于待选样本集的识别结果从待选样本集中选出可疑负样本集;
[0022]从可疑负样本集中选出新的负样本集来与第二子集继续训练二分类模型;
[0023]再次使用二分类模型对验证集和除负样本集外的可疑负样本集进行识别;
[0024]在相邻两次对验证集的识别结果指示二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;
[0025]在相邻两次对验证集的识别结果指示二分类模型未收敛的情况下,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集来对二分类模型继续训练,直至二分类模型对验证集相邻两次的识别结果指示二分类模型收敛。
[0026]可选地,基于待选样本集的识别结果从待选样本集中选出可疑负样本集包括:根据二分类模型对除负样本集外的待选样本集的识别结果,确定待选样本集中各个待选样本与种子受众的行为相似度;按照行为相似度对各个待选样本进行排序;将排序结果中处于目标区间的待选样本组成可疑负样本集,其中,目标区间的待选样本与种子受众的行为相似度小于预设阈值;
[0027]可选地,基于可疑负样本集的识别结果从可疑负样本集中选出新的可疑负样本集包括:根据二分类模型对除负样本集外的可疑负样本集的识别结果,确定可疑负样本集中各个可疑负样本与种子受众的行为相似度;按照行为相似度对各个可疑负样本进行排序;将排序结果中处于目标区间的可疑负样本组成新的可疑负样本集,其中,目标区间的可疑负样本与种子受众的行为相似度小于预设阈值。
[0028]可选地,获取待选样本集之后,所述方法还包括:
[0029]确定扰动范围的最大值、最小值以及扰动位置;
[0030]确定待选样本集中各个待选样本的与扰动位置匹配的向量元素;
[0031]在扰动范围内对各个向量元素进行随机扰动。
[0032]可选地,将特征向量输入预设的受众识别模型进行识别之后,所述方法还包括:
[0033]将待定受众的人口统计学数据输入受众识别模型进行识别;
[0034]将人口统计学数据的识别结果与第一置信度相乘,将行为数据的识别结果与第二置信度相乘,其中,第一置信度、第二置信度为预先根据种子受众的大数据爬取结果确定的,第一置信度小于第二置信度,第一置信度与第二置信度之和为1;
[0035]在乘积之和所表示的待定受众属于种子受众的扩散受众的概率大于或等于目标阈值的情况下,将待定受众确定为种子受众的扩散受众。
[0036]根据本申请实施例的另一方面,本申请提供了一种受众扩散装置,包括:
[0037]数据获取模块,用于获取待定受众的行为数据,其中,行为数据用于表示待定受众的广告曝光行为和广告点击行为;
[0038]向量构建模块,用于利用行为数据构建特征向量,其中,特征向量用于表示待定受众的行为特征;
[0039]受众识别模块,用于将特征向量输入预设的受众识别模型进行识别,并在识别结果指示待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将待定受众确定为种子受众的扩散受众。
[0040]根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种受众扩散方法,其特征在于,包括:获取待定受众的行为数据,其中,所述行为数据用于表示所述待定受众的广告曝光行为和广告点击行为;利用所述行为数据构建特征向量,其中,所述特征向量用于表示所述待定受众的行为特征;将所述特征向量输入预设的受众识别模型进行识别,并在识别结果指示所述待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将所述待定受众确定为所述种子受众的扩散受众。2.根据权利要求1所述的方法,其特征在于,将所述特征向量输入预设的受众识别模型进行识别之前,所述方法还包括按照如下方式获取所述受众识别模型:获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,所述标记信息用于指示所标记的受众为所述种子受众,所述第一正样本集、第二正样本集的样本数量少于所述待选样本集的样本数量;利用所述第一正样本集和所述待选样本集对二分类模型进行预训练,以从所述待选样本集中确定负样本集;使用所述第二正样本集和所述负样本集继续训练所述二分类模型,得到所述受众识别模型。3.根据权利要求2所述的方法,其特征在于,利用所述第一正样本集和所述待选样本集对二分类模型进行预训练,以从所述待选样本集中确定负样本集包括:将所述第一正样本集划分为第一子集和第二子集;将所述待选样本集划分为多个子集,并随机选出一个或多个子集与所述第一子集组成验证集;将所述第二子集和所述待选样本集的剩余子集作为训练集,迭代训练所述二分类模型,直至所述二分类模型对所述验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中所述待选样本集的剩余子集的规模逐渐缩减。4.根据权利要求3所述的方法,其特征在于,使用所述训练集迭代训练所述二分类模型,直至所述二分类模型对所述验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集包括:从所述待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用所述负样本集和所述第二子集训练所述二分类模型;使用所述二分类模型对所述验证集和除所述负样本集外的所述待选样本集进行识别;基于所述待选样本集的识别结果从所述待选样本集中选出可疑负样本集;从所述可疑负样本集中选出新的负样本集来与所述第二子集继续训练所述二分类模型;再次使用所述二分类模型对所述验证集和除所述负样本集外的所述可疑负样本集进行识别;在相邻两次对所述验证集的识别结果指示所述二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;
在相邻两次对所述验证集的识别结果指示所述二分类模型未收敛的情况下,基于所述可疑负样本集的识别结果从所述可疑负样本集中选出新的可疑负样本集来对所述二分类模型继续训练,直至所述二分类模型对所述验证集相邻两次的识别结果指示所述二分类模型收敛。5.根据权利要求4所述的方法,其特征在于,基于所述待选样本...

【专利技术属性】
技术研发人员:江金陵
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1