标签选择方法和装置制造方法及图纸

技术编号：27191749 阅读：17 留言：0更新日期：2021-01-31 11:33

本公开提供了一种标签选择方法和装置，涉及数据处理领域。该方法包括：获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量；采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数；根据参数对各个场景下的同名标签进行排序；根据排序结果选择标签。本公开能够实现多个标签的自动化选择和场景匹配功能。场景匹配功能。场景匹配功能。

全部详细技术资料下载

【技术实现步骤摘要】
标签选择方法和装置

[0001]本公开涉及数据处理领域，尤其涉及一种标签选择方法和装置。

技术介绍

[0002]在互联网行业的发展中，企业数据的沉淀积累越来越繁杂。基于底层流式数据的处理、加工和应用，由于是经由不同的团队、部门或个人产生汇总数据或标签，因此不可避免会存在大量冗余的标签。如在我们无法得到客户真实性别属性时，往往会利用其搜索、浏览、购物行为，通过算法预测得到客户的性别标签以支持在营销或风控场景中应用。在该类场景下，一个企业中就会存在基于不同场景和应用产生的多个同一含义的标签。
[0003]但从统一管理、资源节省、共享应用的角度出发，一个标签多种来源多处存储会带来极大的资源浪费，同时应用时，也很难得知应该使用哪一个标签作为下一步应用和建模的基本粒子。以性别标签为例，性别1来源于推荐团队、性别2来自中台、性别3来自广告
…
。业务线A要使用性别标签时就会出现混乱，同时存储多个同质类型的标签是否真的有意义也是需要用量化的方法给予相应的评价。
[0004]在相关技术中，在遇到一个标签多种口径及来源的情况时，一般会经过人工排查标签生成逻辑、口径及应用场景、范围及标签覆盖度等诸多信息后，经过综合考率和判断，基于人工主观臆断决定是否保留多标签或保留一个标签用于各个场景的应用。
[0005]或者，设置统一指标和阈值，符合条件则保留，不符合则删除。例如，如果设置标签覆盖率为判定指标，阈值为50％，则每个同名标签都要统计相应的覆盖率，如性别1，来源于搜索推荐团队，覆盖人群3亿，覆盖率9...

【技术保护点】

【技术特征摘要】
1.一种标签选择方法，包括：获取样本用户数据，其中，所述样本用户数据包括用户的多个同名标签，所述样本用户数据的标记值是用户的场景目标变量；采用所述样本用户数据对机器学习模型进行训练，获得各个场景下的所述机器学习模型中表征标签和场景目标变量相关性的参数；根据所述参数对各个场景下的同名标签进行排序；根据排序结果选择标签。2.根据权利要求1所述的标签选择方法，还包括：根据每个标签在每个场景下的排序，确定每个标签最适用的场景。3.根据权利要求1所述的标签选择方法，还包括：对各个场景下的机器学习模型进行迭代训练，以确定每个标签在不同时间、同一场景下的排序；根据排序结果确定每个标签的稳定性。4.根据权利要求1所述的标签选择方法，其中，在每个场景中，将同名标签对应的参数大于参数阈值的标签作为待推荐的标签；根据各个场景下同名标签排序结果，依次推荐所述待推荐的标签。5.根据权利要求1所述的标签选择方法，还包括：基于场景信息获取场景评价目标，基于场景评价指标确定场景目标。6.根据权利要求1-5任一所述的标签...

【专利技术属性】
技术研发人员：李慧，马晓云，鞠明兴，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人