一种基于分布式深度旋转森林的信用欺诈检测方法及系统技术方案

技术编号:38365233 阅读:26 留言:0更新日期:2023-08-05 17:32
本发明专利技术涉及机器学习、数据挖掘、分布式计算技术,具体涉及一种基于分布式深度旋转森林的信用欺诈检测方法及系统,该方法将F个旋转森林将通过Spark的Map算子进行并行处理。另外在旋转森林的内部,让部分决策树组成子森林,每个子森林进行并行构建,子森林之间将共享单个旋转矩阵。构建每个子森林的旋转矩阵,经过多次抽样并经过PCA处理,借助Spark Mllib中的PCA算法同样进行并行构建。原始欺诈交易数据从HDFS读取后初始化为RDD,数据经过级联层完成并行训练后,对交易行为进行分类预测。该方法在保证分类准确率的同时,提高了数据的处理速度和效率,解决了单机算法面临的计算存储能力有限和扩展性差的问题。力有限和扩展性差的问题。力有限和扩展性差的问题。

【技术实现步骤摘要】
一种基于分布式深度旋转森林的信用欺诈检测方法及系统


[0001]本专利技术属于机器学习、数据挖掘、分布式计算
,特别涉及一种基于分布式深度旋转森林的信用欺诈检测方法及系统。

技术介绍

[0002]信用欺诈检测是一种数据分析技术,主要用于识别和预防信用欺诈行为。在早期,研究者使用人工或者统计学方法来识别欺诈行为。随着人工智能技术的发展,机器学习技术被广泛应用于反欺诈检测领域,缩短检测时间的同时,也极大提高了检测的准确率。然而隔三差五金融互联网的不断发展,信用欺诈行为也变得理加普遍多样。所以如何完善金融平台的风险检测手段,提高欺诈检测准确率,仍是互联网金融机构迫切需要解决的难题之一。最近,深度森林的研究为探索非神经网络的深度模型打开了一扇大门,它同时结合了神经网络和集成学习的一些特点,在多个应用领域都获得了不错的成绩。
[0003]虽然深度森林在很多领域中表现优异,但也存在一些不足之处,特别是在信用欺诈检测领域,第一,模型在训练具有空间或时间关系的数据集时,会通过多粒度扫描层提高样本的多样性,强化模型性能。然而信用欺诈数据并没有空间或本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,包括:对原始信用欺诈数据集进行数据清洗与特征预处理,并将其上传至分布式文件存储系统HDFS;读取数据初始化为一个RDD;初始化一个分布式深度旋转森林模型;使用Train_DF开始训练模型,使用Map算子将F个旋转森林的训练过程并行化;在所述旋转森林的内部,部分决策树组成子森林,每个子森林进行并行构建,子森林之间共享单个旋转矩阵;随机将训练集的特征空间P划分为K个不重合的子特征空间P
t,k
,k∈{1,2,

,K},其中每个子空间中包含个特征;每个子森林构造一个旋转矩阵;训练生成模型,并利用训练好的信用欺诈检测模型对训练集进行检测分类。2.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述读取数据初始化为一个RDD包括使用Spark的Map算子将RDD转换为Dataset,其scheme约束为特征、标签和索引三列;将Dataset分割成训练集Train_DF和测试集Test_DF。3.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述初始化一个分布式深度旋转森林模型的级联层包括F个旋转森林,每个旋转森林包括T棵决策树。4.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,在旋转森林的内部,每个旋转森林由T棵决策树组成,有S个子森林进行并行构建。5.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述每个子森林构造一个旋转矩阵,是根据K个不重合的子特征空间进行K次抽样并经过PCA处理的过程,该过程借助Spark MLlib中的PCA算法进行并行构建。6.根据权利要求5所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述并行构建具体步骤如下:S1.根据特征空间P
s,k
获得子集矩阵X
s,
;S2.随机抽取类别实例X

s,k
;S3.使用bootstrap算法从X

s,k...

【专利技术属性】
技术研发人员:陈宏伟施德伟陈子璇
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1