【技术实现步骤摘要】
用户数据处理方法、装置及电子设备
本公开涉及计算机信息处理领域,具体而言,涉及一种用户数据处理方法、装置、电子设备及计算机可读介质。
技术介绍
不均衡的样本可能会导致一些机器学习模型失效的问题,例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习,正样本是正确分类出的类别所对应的样本,负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言,正样本的选取是较容易的,负样本的数量是极少的,这种情况下产生的样本是不均衡的样本。目前对于不均衡样本处理,主流方法还是从抽样的角度去处理,比如进行欠采样或者过采样来提升坏样本的比例,但是对于抽样方法,会造成过拟合现象;而且采样改变了样本的真实分布,使得学习的模型是有偏的,这种不均衡的样本会给机器学习模型训练引入很多误差数据,最终可能 ...
【技术保护点】
1.一种用户数据处理方法,其特征在于,包括:/n获取第一用户数据,所述第一用户数据包括基础数据和行为数据;/n基于所述基础数据和所述行为数据为所述第一用户数据确定标签,所述标签包括正向标签和负向标签;/n通过带有标签的第一用户数据对生成对抗网络模型进行训练,获取样本生成模型;/n通过所述样本生成模型生成带有负向标签的第二用户数据;以及/n通过所述第二用户数据和所述第一用户数据生成样本数据。/n
【技术特征摘要】
1.一种用户数据处理方法,其特征在于,包括:
获取第一用户数据,所述第一用户数据包括基础数据和行为数据;
基于所述基础数据和所述行为数据为所述第一用户数据确定标签,所述标签包括正向标签和负向标签;
通过带有标签的第一用户数据对生成对抗网络模型进行训练,获取样本生成模型;
通过所述样本生成模型生成带有负向标签的第二用户数据;以及
通过所述第二用户数据和所述第一用户数据生成样本数据。
2.如权利要求1所述的方法,其特征在于,还包括:
通过所述样本数据对机器学习模型进行训练,生成用户风险分析模型。
3.如权利要求1-2中任一所述的方法,其特征在于,通过所述样本数据对机器学习模型进行训练,生成用户风险分析模型,包括:
将所述样本数据划分为训练数据集合和测试数据集合;
基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及
通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
4.如权利要求1-3中任一所述的方法,其特征在于,基于所述基础数据和所述行为数据为所述第一用户数据确定标签,包括:
通过所述风险策略集合对所述基础数据和所述行为数据进行判定;
为满足风控策略集合的第一用户数据确定正向标签;
为不满足风控策略集合的第一用户数据确定负向标签。
5.如权利要求1-4中任一所述的方法,其特征在于,通过带有标签的第一用户数据对生成对抗网络模型进行训练,获取样本生成模型,包括:
将带有标签的第一用户数据进行归一化处理;
通过归一化处理后的所述第一用户数据对生成对抗网络模型进行训练以获取样本生成模型。
6.如权利要求1-5中任一所述的方法...
【专利技术属性】
技术研发人员:李恒奎,
申请(专利权)人:上海淇毓信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。