用户特征项筛选方法、装置及电子设备制造方法及图纸

技术编号:32830864 阅读:15 留言:0更新日期:2022-03-26 20:43
本申请提供一种用户特征项筛选方法、装置及电子设备,利用特征项的信息值、方差膨胀系数、假设检验机率值、相关系数等指标综合进行特征筛选,且筛选过程不是简单的对单维度筛选结果求交集,而是将多维度条件融合起来进行特征筛选,保证特征筛选的结果对模型效果贡献更大且筛选过程耗时更短。大且筛选过程耗时更短。大且筛选过程耗时更短。

【技术实现步骤摘要】
用户特征项筛选方法、装置及电子设备


[0001]本申请涉及数据处理
,具体而言,涉及一种用户特征项筛选方法、装置及电子设备。

技术介绍

[0002]随着大数据分析技术的发展,大数据分析被广泛地应用在各行各业。例如,在金融领域的一些场景中需要根据用户的各种用户特征数据(如,用户的年龄、工作类型、收入、历史借贷情况等)进行大数据分析,以预测用户是否存在还贷风险。但是,在分析过程中,不同用户特征项目之间可能存在冗余或不具有分析意义的特征项,为了提高数据分析效率,减少不必要运算资源浪费,通常需要筛选有意义的用户特征进行建模分析。在一些现有实现方式包括前序、后序遍历,但是前序、后序遍历循环获得新特征组合并依次建模作比较时间开销大。或者采用信息值(Information Value,IV)、方差膨胀系数(variance inflation factor,VIF)、假设检验机率值(p

value)、相关系数(Correlation coefficient)等来对特征进行独立地筛选,但在综合多个指标对结果求交集时,可能损失一些对目标函数有用的特征。

技术实现思路

[0003]为了克服现有技术中的上述不足,本申请的目的在于提供一种用户特征项筛选方法,所述方法包括:
[0004]获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
[0005]获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
>[0006]计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
[0007]获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
[0008]从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;
[0009]将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;
[0010]若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;
[0011]若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;
[0012]使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
[0013]在一种可能的实现方式中,所述获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项的步骤,包括:
[0014]按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;
[0015]将所述相关系数最大的用户特征项作为第一目标用户特征项;
[0016]检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;
[0017]若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;
[0018]若大于,则保持所述第一目标用户特征项。
[0019]在一种可能的实现方式中,所述从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项的步骤,包括:
[0020]将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;
[0021]若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;
[0022]若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
[0023]若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;
[0024]若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
[0025]若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
[0026]若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
[0027]在一种可能的实现方式中,所述根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项的步骤,包括:
[0028]根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验
机率值更大。
[0029]本申请的另一目的在于提供一种用户特征项筛选装置,所述用户特征项筛选装置包括:
[0030]数据获取模块,用于获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
[0031]第一数据处理模块,用于获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
[0032]第二数据处理模块,用于计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
[0033]第三数据处理模块,用于获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
[0034]第四数据处理模块,用于从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户特征项筛选方法,其特征在于,所述方法包括:获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项的步骤,包括:按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;将所述相关系数最大的用户特征项作为第一目标用户特征项;检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;若大于,则保持所述第一目标用户特征项。3.根据权利要求2所述的方法,其特征在于,所述从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项的步骤,包括:将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户
特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。4.根据权利要求3所述的方法,其特征在于,所述根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项的步骤,包括:根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。5.一种用户特征项筛选装置,其特征在于,所述用户特征项筛选装置包括:数据获取模块,用于获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;第一数据处理模块,用于...

【专利技术属性】
技术研发人员:顾凌云谢旻旗汪仁杰张涛潘峻
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1