【技术实现步骤摘要】
用于确定标签权重的方法和装置
[0001]本公开涉及计算机
,具体涉及用于确定标签权重的方法和装置。
技术介绍
[0002]对人群进行画像分析可以用于辅助商业推广、或者智能产品的研发等。目前,存在多种分析人群画像标签的方法,然而,如何确定人群画像的标签表征人群画像的准确性或者重要性成为亟待解决的问题。
技术实现思路
[0003]本公开提供了一种用于确定标签权重的方法、装置、电子设备以及计算机可读存储介质。
[0004]根据本公开的第一方面,提供了一种用于确定标签权重的方法,包括:获取目标人群的画像数据集,画像数据集中包括目标人群的至少一个原始标签、构成目标人群的样本用户;根据样本用户中符合原始标签的用户数量、以及样本用户的总数量,确定原始标签的权重。
[0005]在一些实施例中,根据样本用户中符合原始标签的用户数量、以及样本用户的总数量,确定原始标签的权重,包括:将画像数据集中的每一个原始标签标记为第一标记,并通过多轮迭代操作确定原始标签的权重;迭代操作包括:随机获取画像数据集中、具有第 ...
【技术保护点】
【技术特征摘要】
1.一种用于确定标签权重的方法,包括:获取目标人群的画像数据集,所述画像数据集中包括所述目标人群的至少一个原始标签、构成所述目标人群的样本用户;根据所述样本用户中符合所述原始标签的用户数量、以及所述样本用户的总数量,确定所述原始标签的权重。2.根据权利要求1所述的方法,其中,所述根据所述样本用户中符合所述原始标签的用户数量、以及所述样本用户的总数量,确定所述原始标签的权重,包括:将所述画像数据集中的每一个原始标签标记为第一标记,并通过多轮迭代操作确定所述原始标签的权重;所述迭代操作包括:随机获取所述画像数据集中、具有所述第一标记的原始标签,并构建副本画像数据集,所述副本画像数据集中包括副本标签;采用所述样本用户中符合所述原始标签的用户的数量、以及所述样本用户中不符合所述原始标签的用户的数量,确定所述原始标签的第一权重;采用所述样本用户中符合所述副本标签的用户数量、以及所述样本用户中不符合所述副本标签的用户的数量,确定所述副本标签的第二权重,并将各个所述副本标签的第二权重中、最大的第二权重确定为基准权重;响应于确定所述第一权重小于所述基准权重,在执行下一次迭代操作前,将与所述第一权重对应的原始标签的标记更新为第二标记;响应于确定所述迭代操作满足停止条件,停止所述迭代操作,并基于所述第一权重大于或等于多轮迭代操作中确定的各个基准权重的概率确定与所述第一权重对应的原始标签的权重。3.根据权利要求2所述的方法,其中,在每一轮所述迭代操作中,所述确定所述原始标签的第一权重,包括:采用多个目标模型中的每一个模型,确定该模型输出所述原始标签的第一权重;所述确定所述副本标签的第二权重,包括:确定该模型输出的所述副本标签的第二权重;响应于确定所述第一权重大于或者等于所述基准权重,确定该模型的输出结果为第一结果;所述响应于确定所述第一权重小于所述基准权重,在执行下一次迭代操作前,将与所述第一权重对应的原始标签的标记更新为第二标记,包括:响应于确定所述多个目标模型输出为所述第一结果、占全部输出结果的概率不满足第一预设条件,在执行下一次迭代操作前,将与所述第一权重对应的原始标签标的标记更新为所述第二标记。4.根据权利要求3所述的方法,其中,所述不满足第一预设条件,包括:所述多个目标模型输出为所述第一结果、占全部输出结果的输出概率的概率分布函数不满足第二预设条件。5.根据权利要求4所述的方法,其中,所述在执行下一次迭代操作前,将与所述第一权重对应的原始标签标的标记更新为所述第二标记,包括:获取在当前迭代操作以及所述当前迭代操作之前的迭代操作中、确定的所述输出概率
的概率分布函数;采用获取到的多个概率分布函数进行错误发现率校正;响应于确定校正后的所述多个概率分布函数不满足第三预设条件,在执行下一次迭代操作前,将所述原始标签标的标记更新为所述第二标记。6.根据权利要求4所述的方法,其中,所述方法还包括:在所述迭代操作结束后,基于最后一轮迭代操作中确定的所述多个目标模型输出为所述第一结果、占全部输出结果的输出概率的概率分布函数,确定与所述第一权重对应的原始标签的权重指数。7.根据权利要求3
‑
6之一所述的方法,其中,所述采用多个目标模型中的每一个模型,该模型输出所述原始标签的第一权重,包括:采用随机森林模型中的每一个决策树,基于所述原始标签所表征的该决策树中的节点被确定为分裂点的次数,确定所述第一权重,其中,所述分裂点用于将所述样本用户划分为不同的子集;以及所述确定该模型输出的所述副本标签的第二权重,包括:基于所述各个副本标签所表征的该决策树中的节点被确定为分裂点的次数,确定所述各个副本标签的第二权重。8.根据权利要求1所述的方法,其中,所述方法包括:获取对比画像数据集,所述对比画像数据集中包括对比人群的至少一个对比标签、构成所述对比人群的对比用户,所述对比人群是与所述目标人群行为相反的人群;根据所述对比用户中符合所述对比标签的数量、以及所述对比用户的总数量,确定所述对比标签的权重;响应于确定所述原始标签与所述对比标签相同,根据与该相同的标签对应的原始标签的权重、以及与该标签对应的对比标签的权重,确定该标签是否为所述目标人群的标签。9.一种用于确定标签权重的装置,包括:获取单元,被配置为获取目标人群的画像数据集,所述画像数据集中包括所述目标人群的至少一个原始标签、构成所述目标人群的样本用户;确定单元,被配置为根据所述样本用户中符合所述原始标签的用户数量、以及所述样本用户的总数量,确定所述原始标签的权重。10.根...
【专利技术属性】
技术研发人员:吴远安,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。