【技术实现步骤摘要】
受众扩散方法、装置、设备及计算机可读介质
[0001]本申请涉及大数据
,尤其涉及一种受众扩散方法、装置、设备及计算机可读介质。
技术介绍
[0002]随着电子商务平台的发展让中小企业进入消费者视野,大型企业广告主面临业务增长放缓和收入下降的危机。因此,品牌广告主开始更加关注在线广告对销售转化的贡献以及实际广告带来的收入。同时,大数据技术的出现颠覆了整个广告行业的运营模式与传统的评估广告效果的方法。通过分析和对海量用户行为数据进行建模,广告主可以准确到达目标消费者。因此,如何更好地利用广告监控数据,以优化广告服务和提高营销转化率成为重要课题。提高营销转化率一个典型的方式就是做受众扩展,也就是说,识别并触达跟种子受众具有相似兴趣的新受众。
[0003]目前,相关技术中,主要是通过受众的人口统计学信息,比如年龄、性别和所在地区的相似性来进行定位,比如某款化妆品种子受众是18
‑
24岁的女性,那么就把种子受众以外的18
‑
24岁女性当作新目标受众。然而,用户填写的人口统计学信息未必是真实的,甚至存在很多缺失,这就导致采用人口统计学信息进行受众扩散的方式会出现受众扩散不准确的问题,而且只根据人口统计学信息进行受众扩散的条件比较单一且笼统,即使根据准确、完整的人口统计学信息进行受众扩散,扩散结果也会存在很大的偏差。
[0004]针对受众扩散不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本申请提供了一种受众扩散方法、装置、设备及计算 ...
【技术保护点】
【技术特征摘要】
1.一种受众扩散方法,其特征在于,包括:获取待定受众的行为数据,其中,所述行为数据用于表示所述待定受众的广告曝光行为和广告点击行为;利用所述行为数据构建特征向量,其中,所述特征向量用于表示所述待定受众的行为特征;将所述特征向量输入预设的受众识别模型进行识别,并在识别结果指示所述待定受众与种子受众的行为相似度大于或等于预设阈值的情况下,将所述待定受众确定为所述种子受众的扩散受众。2.根据权利要求1所述的方法,其特征在于,将所述特征向量输入预设的受众识别模型进行识别之前,所述方法还包括按照如下方式获取所述受众识别模型:获取具有标记信息的第一正样本集、第二正样本集以及不具有标记信息的待选样本集,其中,所述标记信息用于指示所标记的受众为所述种子受众,所述第一正样本集、第二正样本集的样本数量少于所述待选样本集的样本数量;利用所述第一正样本集和所述待选样本集对二分类模型进行预训练,以从所述待选样本集中确定负样本集;使用所述第二正样本集和所述负样本集继续训练所述二分类模型,得到所述受众识别模型。3.根据权利要求2所述的方法,其特征在于,利用所述第一正样本集和所述待选样本集对二分类模型进行预训练,以从所述待选样本集中确定负样本集包括:将所述第一正样本集划分为第一子集和第二子集;将所述待选样本集划分为多个子集,并随机选出一个或多个子集与所述第一子集组成验证集;将所述第二子集和所述待选样本集的剩余子集作为训练集,迭代训练所述二分类模型,直至所述二分类模型对所述验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集,其中,在迭代训练的过程中所述待选样本集的剩余子集的规模逐渐缩减。4.根据权利要求3所述的方法,其特征在于,使用所述训练集迭代训练所述二分类模型,直至所述二分类模型对所述验证集的识别准确率收敛时,将最后一次使用的负样本集确定为最终的负样本集包括:从所述待选样本集的剩余子集中随机选取一个或多个子集作为负样本集,并使用所述负样本集和所述第二子集训练所述二分类模型;使用所述二分类模型对所述验证集和除所述负样本集外的所述待选样本集进行识别;基于所述待选样本集的识别结果从所述待选样本集中选出可疑负样本集;从所述可疑负样本集中选出新的负样本集来与所述第二子集继续训练所述二分类模型;再次使用所述二分类模型对所述验证集和除所述负样本集外的所述可疑负样本集进行识别;在相邻两次对所述验证集的识别结果指示所述二分类模型收敛的情况下,将最后一次使用的负样本集确定为最终的负样本集;
在相邻两次对所述验证集的识别结果指示所述二分类模型未收敛的情况下,基于所述可疑负样本集的识别结果从所述可疑负样本集中选出新的可疑负样本集来对所述二分类模型继续训练,直至所述二分类模型对所述验证集相邻两次的识别结果指示所述二分类模型收敛。5.根据权利要求4所述的方法,其特征在于,基于所述待选样本...
【专利技术属性】
技术研发人员:江金陵,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。