一种用户属性数据分组方法技术

技术编号:32119441 阅读:16 留言:0更新日期:2022-01-29 19:05
本发明专利技术提供一种用户属性数据分组方法,能够兼顾用户属性数据的分组数据表现和实际业务可解释性。所述方法包括:获取用户属性数据确定其取值范围;对用户属性数据进行初始化分组处理;根据初始化分组结果计算确定所述分组的用户行为预测参数;选取分组排序方式,按照所述分组排序方式对初始化分组结果进行排序,确定所述用户行为预测指数的变化趋势;根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果。定目标分组结果。定目标分组结果。

【技术实现步骤摘要】
一种用户属性数据分组方法


[0001]本说明书一个或多个实施例涉及信息数据处理
,尤其涉及一种用户属性数据分组方法。

技术介绍

[0002]资源供给是生产工作中的所不可或缺的最重要的保障条件之一,在实际生产工作过程中需要根据作为资源需求方的实体用户的用户行为来确定资源分配供给策略,具体或涉及到对用户各项属性数据进行针对性分组划分,以便于对用户行为进行评价或预测。
[0003]现有的对用户各项属性数据进行分组的方法可分为有监督分箱和无监督分箱。其中常用的有:等距分箱、等频分箱、最优化分箱、卡方分箱。等距分箱与等频分箱为非监督分箱方法,等距分箱是按照样本值的区间范围按照设定分箱数按样本值进行切分,等频分箱是按照样本大小排序,按照每个箱内相同样本数确定切分点进行划分。最优化分箱和卡方分箱是有监督分箱方法,最优化分箱是按照信息熵或基尼系数最大原则对样本进行切分分箱;卡方分箱是按照自底向上原则,先切分小区间,将最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
[0004]然而实际应用中,在针对样本数量不充足以及好坏样本不平衡程度较高的应用场景中,以上方法不能很好的兼顾分箱的样本区分度和业务可解释性的要求:等距分箱受样本分布以及异常值影响较大,对于非均匀或非正态的样本分布情况,可能导致在部分箱体内的样本数量过大或过小;等频分箱是更为通用的分箱方法,但是这种方法有2个缺点,一是在样本值在某个数据较为集中的条件下,无法实现传统的等频分箱,二是由于没有考虑到标签分布情况,分箱效果可能区分度不够,从而使得最终模型效果欠拟合;最优化分箱和卡方分箱都是利用标签信息,使得分箱区分度达到最高。但是在样本数量不够或者是标签不均衡程度较高时,这种分箱效果一是可能导致过拟合的情况,二是可能产生数据操纵而与专家经验不一致,数据业务解释性不强。

技术实现思路

[0005]有鉴于此,本说明书一个或多个实施例的目的在于提出一种用户属性数据分组方法,以解决现有分组技术不能很好的兼顾数据样本区分度和业务可解释性的要求的问题。
[0006]基于上述目的,本说明书一个或多个实施例提供了一种用户属性数据分组方法,其特征在于,包括:
[0007]获取用户属性数据,确定所述用户属性数据的取值范围;
[0008]在所述取值范围内对所述用户属性数据进行初始化分组处理;
[0009]根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数;
[0010]选取分组排序方式,按照所述分组排序方式对初始化分组结果进行排序,确定所述用户行为预测指数的变化趋势;
[0011]根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果。
[0012]可选的,所述在所述取值范围内对所述用户属性数据进行初始化分组处理,包括:
[0013]在所述取值范围内,对所述用户属性数据进行升序排列;
[0014]计算所述用户属性数据的累计分位数值;
[0015]根据所述累计分位数值对所述用户属性数据进行等频分箱,获取分组切分点的属性数值;
[0016]根据所述分组切分点的属性数值对所述用户属性数据进行分组切分,使分组切分后每一分组中包含相同数量的所述用户属性数据。
[0017]可选的,所述根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数,包括:
[0018]获取所述用户属性数据相应用户的用户行为记录,根据所述用户行为记录将所述用户划分为积极用户与消极用户;
[0019]统计每一分组所对应积极用户数量、消极用户数量以及全部用户中积极用户总数量与消极用户总数量,并计算确定相应所述分组的用户行为预测参数:
[0020][0021]其中,WOE
i
表示第i个分组的所述用户行为预测参数,py
i
表示第i个分组的积极用户概率,pn
i
表示第i个分组的消极用户概率;
[0022]y
i
表示在第i个分组中的积极用户数量,n
i
表示在第i个分组中的消极用户数量,y
T
表示全部用户中积极用户总数量,n
T
表示全部用户中消极用户总数量。
[0023]可选的,所述根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果,包括:
[0024]将所述变化趋势与所述分组排序方式相应的期望变化趋势进行对比;
[0025]若所述变化趋势与所述期望变化趋势不相符,则对所述初始化分组结果进行合并调整,使合并调整后的分组结果相应变化趋势与所述期望变化趋势相一致;
[0026]变化趋势与所述期望变化趋势相一致的所述分组结果即所述目标分组结果。
[0027]可选的,所述对所述初始化分组结果进行合并调整,包括:
[0028]对所述初始化分组结果中相邻两分组进行合并操作,得到第一分组结果;
[0029]计算确定所述第一分组结果相应所述用户行为预测参数的变化趋势,将所述第一分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0030]若所述第一分组结果相应所述变化趋势与所述期望变化趋势不相符,则对所述第一分组结果中相邻两分组进行再次合并操作,得到第二分组结果;
[0031]计算确定所述第二分组结果相应所述用户行为预测参数的变化趋势,将所述第二分组结果相应所述变化趋势与所述期望变化趋势进行对比;
[0032]若所述第二分组结果相应所述变化趋势与所述期望变化趋势仍不相符,则重新对所述用户属性数据进行初始化分组处理,对重新初始化分组结果进行排序调整。
[0033]可选的,在重新对所述用户属性数据进行初始化分组处理时,控制初始化分组结果中每组用户数量为原用户数量的二倍。
[0034]可选的,所述分组排序方式根据历史经验数据选取确定;
[0035]所述方法还包括:
[0036]若对重新初始化分组结果进行合并调整后,相应所述变化趋势仍与所述期望变化趋势不符,则对选取的所述分组排序方式进行验证调整;
[0037]对所述分组排序方式进行验证调整,包括:
[0038]在根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数时,还计算所述初始化分组结果对应的初始精度比参数AR;
[0039]在对所述初始化分组结果进行合并调整后,计算合并调整后分组结果对应的调整精度比参数AR


[0040]将所述初始精度比参数AR与所述调整精度比参数AR

进行对比,若合并调整后分组结果对应的调整精度比参数AR

小于所述初始精度比参数,则说明最初选取的所述分组排序方式错误,重新选取新的分组排序方式。
[0041]从上面所述可以看出,本说明书一个或多个实施例提供的一种用户属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户属性数据分组方法,其特征在于,包括:获取用户属性数据,确定所述用户属性数据的取值范围;在所述取值范围内对所述用户属性数据进行初始化分组处理;根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数;选取分组排序方式,按照所述分组排序方式对初始化分组结果进行排序,确定所述用户行为预测指数的变化趋势;根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果。2.根据权利要求1所述的方法,其特征在于,所述在所述取值范围内对所述用户属性数据进行初始化分组处理,包括:在所述取值范围内,对所述用户属性数据进行升序排列;计算所述用户属性数据的累计分位数值;根据所述累计分位数值对所述用户属性数据进行等频分箱,获取分组切分点的属性数值;根据所述分组切分点的属性数值对所述用户属性数据进行分组切分,使分组切分后每一分组中包含相同数量的所述用户属性数据。3.根据权利要求1所述的方法,其特征在于,所述根据初始化分组结果,对每一分组中的所述用户属性数据进行统计分析,计算确定所述分组的用户行为预测参数,包括:获取所述用户属性数据相应用户的用户行为记录,根据所述用户行为记录将所述用户划分为积极用户与消极用户;统计每一分组所对应积极用户数量、消极用户数量以及全部用户中积极用户总数量与消极用户总数量,并计算确定相应所述分组的用户行为预测参数:其中,WOE
i
表示第i个分组的所述用户行为预测参数,py
i
表示第i个分组的积极用户概率,pn
i
表示第i个分组的消极用户概率;y
i
表示在第i个分组中的积极用户数量,n
i
表示在第i个分组中的消极用户数量,y
T
表示全部用户中积极用户总数量,n
T
表示全部用户中消极用户总数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述变化趋势对所述初始化分组结果进行调整,确定目标分组结果,包括:将所述变化趋势与所述分组排序方式相应的期望变化趋势进...

【专利技术属性】
技术研发人员:李彦萱李荣花段婷婷
申请(专利权)人:东方微银科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1