标签选择方法和装置制造方法及图纸

技术编号:27191749 阅读:17 留言:0更新日期:2021-01-31 11:33
本公开提供了一种标签选择方法和装置,涉及数据处理领域。该方法包括:获取样本用户数据,其中,样本用户数据包括用户的多个同名标签,样本用户数据的标记值是用户的场景目标变量;采用样本用户数据对机器学习模型进行训练,获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数;根据参数对各个场景下的同名标签进行排序;根据排序结果选择标签。本公开能够实现多个标签的自动化选择和场景匹配功能。场景匹配功能。场景匹配功能。

【技术实现步骤摘要】
标签选择方法和装置


[0001]本公开涉及数据处理领域,尤其涉及一种标签选择方法和装置。

技术介绍

[0002]在互联网行业的发展中,企业数据的沉淀积累越来越繁杂。基于底层流式数据的处理、加工和应用,由于是经由不同的团队、部门或个人产生汇总数据或标签,因此不可避免会存在大量冗余的标签。如在我们无法得到客户真实性别属性时,往往会利用其搜索、浏览、购物行为,通过算法预测得到客户的性别标签以支持在营销或风控场景中应用。在该类场景下,一个企业中就会存在基于不同场景和应用产生的多个同一含义的标签。
[0003]但从统一管理、资源节省、共享应用的角度出发,一个标签多种来源多处存储会带来极大的资源浪费,同时应用时,也很难得知应该使用哪一个标签作为下一步应用和建模的基本粒子。以性别标签为例,性别1来源于推荐团队、性别2来自中台、性别3来自广告

。业务线A要使用性别标签时就会出现混乱,同时存储多个同质类型的标签是否真的有意义也是需要用量化的方法给予相应的评价。
[0004]在相关技术中,在遇到一个标签多种口径及来源的情况时,一般会经过人工排查标签生成逻辑、口径及应用场景、范围及标签覆盖度等诸多信息后,经过综合考率和判断,基于人工主观臆断决定是否保留多标签或保留一个标签用于各个场景的应用。
[0005]或者,设置统一指标和阈值,符合条件则保留,不符合则删除。例如,如果设置标签覆盖率为判定指标,阈值为50%,则每个同名标签都要统计相应的覆盖率,如性别1,来源于搜索推荐团队,覆盖人群3亿,覆盖率98%;性别2来源于客服,覆盖率20%,则保留性别1,剔除性别2。

技术实现思路

[0006]本公开要解决的一个技术问题是,提供一种标签选择方法和装置,能够实现多个标签的自动化选择和场景匹配功能。
[0007]根据本公开一方面,提出一种标签选择方法,包括:获取样本用户数据,其中,样本用户数据包括用户的多个同名标签,样本用户数据的标记值是用户的场景目标变量;采用样本用户数据对机器学习模型进行训练,获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数;根据参数对各个场景下的同名标签进行排序;根据排序结果选择标签。
[0008]在一个实施例中,根据每个标签在每个场景下的排序,确定每个标签最适用的场景。
[0009]在一个实施例中,对各个场景下的机器学习模型进行迭代训练,以确定每个标签在不同时间、同一场景下的排序;根据排序结果确定每个标签的稳定性。
[0010]在一个实施例中,在每个场景中,将同名标签对应的参数大于参数阈值的标签作为待推荐的标签;根据各个场景下同名标签排序结果,依次推荐待推荐的标签。
[0011]在一个实施例中,基于场景信息获取场景评价目标,基于场景评价指标确定场景目标。
[0012]在一个实施例中,参数包括基尼指数、信息增益和信息价值中的一项或多项。
[0013]在一个实施例中,根据每个标签在每个场景下的排序,删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签。
[0014]根据本公开的另一方面,还提出一种标签选择装置,包括:数据获取单元,被配置为获取样本用户数据,其中,样本用户数据包括用户的多个同名标签,样本用户数据的标记值是用户的场景目标变量;场景建模单元,被配置为采用样本用户数据对机器学习模型进行训练,获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数;标签排序单元,被配置为根据参数对各个场景下的同名标签进行排序;标签选择单元,被配置为根据排序结果选择标签。
[0015]在一个实施例中,适用场景确定单元,被配置为根据每个标签在每个场景下的排序,确定每个标签最适用的场景。
[0016]在一个实施例中,迭代训练单元,被配置为对各个场景下的机器学习模型进行迭代训练,以确定每个标签在不同时间、同一场景下的排序;稳定性确定单元,被配置为根据排序结果确定每个标签的稳定性。
[0017]在一个实施例中,数据删除单元,被配置为根据每个标签在每个场景下的排序,删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签。
[0018]根据本公开的另一方面,还提出一种标签选择装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的方法。
[0019]根据本公开的另一方面,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的方法。
[0020]与相关技术相比,本公开采用样本用户数据对机器学习模型进行训练,获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数,然后根据参数对各个场景下的同名标签进行排序,以便根据排序结果选择标签,从而实现了多个标签的自动化选择和场景匹配功能。
[0021]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0022]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0023]参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0024]图1为本公开标签选择方法的一个实施例的流程示意图。
[0025]图2为本公开标签选择方法的另一个实施例的流程示意图。
[0026]图3为本公开标签选择装置的一个实施例的结构示意图。
[0027]图4为本公开标签选择装置的另一个实施例的结构示意图。
[0028]图5为本公开标签选择装置的另一个实施例的结构示意图。
[0029]图6为本公开标签选择装置的另一个实施例的结构示意图。
具体实施方式
[0030]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0031]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0032]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0033]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
[0034]在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
[0035]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0036]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0037]在相关技术中,对于纯人工甄别、处理、判断及下线方法。人工判断主观臆断的成分比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签选择方法,包括:获取样本用户数据,其中,所述样本用户数据包括用户的多个同名标签,所述样本用户数据的标记值是用户的场景目标变量;采用所述样本用户数据对机器学习模型进行训练,获得各个场景下的所述机器学习模型中表征标签和场景目标变量相关性的参数;根据所述参数对各个场景下的同名标签进行排序;根据排序结果选择标签。2.根据权利要求1所述的标签选择方法,还包括:根据每个标签在每个场景下的排序,确定每个标签最适用的场景。3.根据权利要求1所述的标签选择方法,还包括:对各个场景下的机器学习模型进行迭代训练,以确定每个标签在不同时间、同一场景下的排序;根据排序结果确定每个标签的稳定性。4.根据权利要求1所述的标签选择方法,其中,在每个场景中,将同名标签对应的参数大于参数阈值的标签作为待推荐的标签;根据各个场景下同名标签排序结果,依次推荐所述待推荐的标签。5.根据权利要求1所述的标签选择方法,还包括:基于场景信息获取场景评价目标,基于场景评价指标确定场景目标。6.根据权利要求1-5任一所述的标签...

【专利技术属性】
技术研发人员:李慧马晓云鞠明兴
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1