用户风险分析模型训练方法、装置及电子设备制造方法及图纸

技术编号:25399397 阅读:38 留言:0更新日期:2020-08-25 23:04
本公开涉及一种用户风险分析模型训练方法、装置、电子设备及计算机可读介质。该方法包括:获取用户数据,所述用户数据包括基础数据和行为数据;基于所述基础数据和所述行为数据为所述用户数据确定标签,所述标签包括正向标签和负向标签;基于所述标签对所述用户数据进行样本扩容处理,生成样本数据;通过所述样本数据对预设机器学习模型进行训练,生成用户风险分析模型,所述预设机器学习模型为带有改进函数的机器学习模型。本公开涉及的用户风险分析模型训练方法、装置、电子设备及计算机可读介质,能够提高机器学习模型的训练效果,增加机器学习模型计算的准确率,进而生成快速高效的用户风险分析模型。

【技术实现步骤摘要】
用户风险分析模型训练方法、装置及电子设备
本公开涉及计算机信息处理领域,具体而言,涉及一种用户风险分析模型训练方法、装置、电子设备及计算机可读介质。
技术介绍
通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习,正样本是正确分类出的类别所对应的样本,负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言,正样本的选取是较容易的,比如在金融领域,用户金融风险分析的时候,可将未有过逾期的用户作为正样本,将已经违约的用户作为机器学习模型训练的负样本,但是对于正样本而言,负样本的数量是极少的,这种情况下产生的样本是不均衡的样本。不均衡的样本,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率,这种不均衡的样本会给机器学习模型训练引入很多误差数据,最终可本文档来自技高网...

【技术保护点】
1.一种用户风险分析模型训练方法,其特征在于,包括:/n获取用户数据,所述用户数据包括基础数据和行为数据;/n基于所述基础数据和所述行为数据为所述用户数据确定标签,所述标签包括正向标签和负向标签;/n基于所述标签对所述用户数据进行样本扩容处理,生成样本数据;/n通过所述样本数据对预设机器学习模型进行训练,生成用户风险分析模型,所述预设机器学习模型为带有改进函数的机器学习模型。/n

【技术特征摘要】
1.一种用户风险分析模型训练方法,其特征在于,包括:
获取用户数据,所述用户数据包括基础数据和行为数据;
基于所述基础数据和所述行为数据为所述用户数据确定标签,所述标签包括正向标签和负向标签;
基于所述标签对所述用户数据进行样本扩容处理,生成样本数据;
通过所述样本数据对预设机器学习模型进行训练,生成用户风险分析模型,所述预设机器学习模型为带有改进函数的机器学习模型。


2.如权利要求1所述的方法,其特征在于,还包括:
将当前用户数据输入所述用户风险分析模型中,生成所述当前用户数据的风险概率。


3.如权利要求1-2中任一所述的方法,其特征在于,基于所述基础数据和所述行为数据为所述用户数据确定标签,所述标签包括正向标签和负向标签,包括:
通过所述风险策略集合对所述基础数据和所述行为数据进行判定;
为满足风控策略集合的用户数据确定正向标签;
为不满足风控策略集合的用户数据确定负向标签。


4.如权利要求1-3中任一所述的方法,其特征在于,基于所述标签对所述用户数据进行样本扩容处理,生成样本数据,包括:
通过近邻算法对带有负向标签的用户数据进行样本扩容处理以生成所述样本数据;和/或
通过生成对抗网络模型对带有负向标签的用户数据进行样本扩容处理以生成所述样本数据;和/或
通过标签传播算法对带有负向标签的用户数据进行样本扩容处理以生成所述样本数据。


5.如权利要求1-4中任一所述的方法,其特征在于,通过所述样本数据对预设机器学习模型进行训练,生成用户风险分析模型,包括:
基于FOCALLOSS损失函数生成...

【专利技术属性】
技术研发人员:李恒奎
申请(专利权)人:上海淇毓信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1