用于风险识别的方法和装置制造方法及图纸

技术编号:33636903 阅读:60 留言:0更新日期:2022-06-02 01:50
本发明专利技术提供了用于风险识别的方法和装置。一种用于风险识别的方法包括:获取样本集,该样本集中的每一个样本包括多个特征;针对该多个特征中的每个类别特征,确定该类别特征在该样本集中的类别数;将该类别特征的类别数与类别数阈值进行比较;如果该类别特征的类别数小于或等于该类别数阈值,则使用随机编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合;以及如果所述类别特征的类别数大于所述类别数阈值,则使用统计编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合。特征的特征映射集合。特征的特征映射集合。

【技术实现步骤摘要】
用于风险识别的方法和装置


[0001]本申请涉及人工智能领域,尤其涉及在风险识别中构建特征的方法和装置。

技术介绍

[0002]随着互联网业务的发展,出现了各式各样的风险事件(例如,支付账户盗用等)。为了维持业务平台的稳定性,需要对业务(例如,交易)进行监控,以及时识别出违规的业务。
[0003]随着机器学习技术的迅猛发展,可以使用用于风险识别的模型来实现对风险事件的识别。然而,目前利用模型识别风险事件的方式较为低效,由此导致风险识别的准确度不高,并且极大地耗费系统的计算资源。
[0004]因此,亟需能够提高机器学习模型对风险事件的识别效果并且节省计算资源的方案。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种用于风险识别的方法,包括:
[0006]获取样本集,所述样本集中的每一个样本包括多个特征;
[0007]针对所述多个特征中的每个类别特征,确定所述类别特征在所述样本集中的类别数;
[0008]将所述类别特征的类别数与类别数阈值进行比较;
>[0009]如果所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于风险识别的方法,包括:获取样本集,所述样本集中的每一个样本包括多个特征;针对所述多个特征中的每个类别特征,确定所述类别特征在所述样本集中的类别数;将所述类别特征的类别数与类别数阈值进行比较;如果所述类别特征的类别数小于或等于所述类别数阈值,则使用随机编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合,所述特征映射集合包括所述类别特征中的每个类别与对应特征值的映射;以及如果所述类别特征的类别数大于所述类别数阈值,则使用统计编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合。2.如权利要求1所述的方法,所述随机编码方式包括针对类别特征的每个类别,将对应于所述类别的特征值确定为随机数。3.如权利要求1所述的方法,使用所述统计编码方式来对所述类别特征进行编码包括:确定所述样本集中的有风险样本总数和无风险样本总数;针对所述类别特征的每个类别:确定所述样本集中该类别下的有风险样本数目和无风险样本数目;使用所述有风险样本总数和该类别下的有风险样本数目来确定该类别的有风险样本占比;使用所述无风险样本总数和该类别下的无风险样本数目来确定该类别的无风险样本占比;以及使用所述有风险样本占比和所述无风险样本占比来确定对应于该类别的特征值。4.如权利要求3所述的方法,所述统计编码方式包括证据权重WOE编码方式或信息值IV编码方式。5.如权利要求4所述的方法,使用所述WOE编码方式来对所述类别特征进行编码包括:将所述类别特征关于该类别的特征值f确定为:6.如权利要求4所述的方法,使用所述IV编码方式来对所述类别特征进行编码包括:将所述类别特征关于该类别的特征值f确定为:7.如权利要求1所述的方法,所述多个特征包括数值型特征,并且所述方法进一步包括,使用所述统计编码方式来确定用于数值型特征的特征映射集合。8.如权利要求7所述的方法,进一步包括:将所述数值型特征的数值进行分箱,其中分箱的个数大于所述类别数阈值;以及将每一分箱作为一个类别,使用统计编码方式来确定所述数值型特征的特征映射集合。9.如权利要求7所述的方法,进一步包括:对所述数值型特征进行截断操作;以及
使用所述统计编码方式来确定用于所述经截断的数值型特征的特征映射集合。10.如权利要求1所述的方法,进一步包括:针对所述多个特征中的每个特征,确定所述样本集中缺失该特征的缺失样本数目;将所述缺失样本数目与缺失数目阈值进行比较;如果所述缺失样本数目大于所述缺失数目阈值,则使用所述随机编码方式来对所述特征进行编码;以及如果所述缺失样本数目小于或等于所述缺失数目阈值,则使用所述统计编码方式来对所述特征进行编码。11.如权利要求1所述的方法,进一步包括:使用所述特征映射集合来确定与训练样本集中的类别特征相对应的特征值;以及使用与所述训练样本集相对应的特征向量来训练树模型。12.如权利要求1所述的方法,进一步包括:使用所述特征映射集合来确定与待预测样本集中的类别特征相对应的特征值;以及将与所述待预测样本集合相对应的特征向量输入经训练的树模型以进行风险识别预测。13.如权利要求1所述的方法,所述多个特征包括数值型特征,所述数值型特征在一周期内包括多个数值,所述方法进一步包括:从所述样本集中获取所述数值型特征在一周期内的多个数值;以及从所述多个数值中随机地选择一数值作为所述数值型特征在所述周期内的特征值。14.如权利要求1所述的方法,进一步包括:获取用于训练模型的训练样本集;其中所述训练样本集包括无风险交易样本和有风险交易样本,并且排除不成功交易样本。15.如权利要求1所述的方法,进一步包括:周期性地获取用于风险识别的训练样本集以使用所述训练样本集来训练模型,其中周期为一个月。16.一种用于风险识别的装置,包括:用于...

【专利技术属性】
技术研发人员:张长浩傅欣艺王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1