一种基于分布式深度旋转森林的信用欺诈检测方法及系统技术方案

技术编号：38365233 阅读：26 留言：0更新日期：2023-08-05 17:32

本发明专利技术涉及机器学习、数据挖掘、分布式计算技术，具体涉及一种基于分布式深度旋转森林的信用欺诈检测方法及系统，该方法将F个旋转森林将通过Spark的Map算子进行并行处理。另外在旋转森林的内部，让部分决策树组成子森林，每个子森林进行并行构建，子森林之间将共享单个旋转矩阵。构建每个子森林的旋转矩阵，经过多次抽样并经过PCA处理，借助Spark Mllib中的PCA算法同样进行并行构建。原始欺诈交易数据从HDFS读取后初始化为RDD，数据经过级联层完成并行训练后，对交易行为进行分类预测。该方法在保证分类准确率的同时，提高了数据的处理速度和效率，解决了单机算法面临的计算存储能力有限和扩展性差的问题。力有限和扩展性差的问题。力有限和扩展性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式深度旋转森林的信用欺诈检测方法及系统

[0001]本专利技术属于机器学习、数据挖掘、分布式计算
，特别涉及一种基于分布式深度旋转森林的信用欺诈检测方法及系统。

技术介绍

[0002]信用欺诈检测是一种数据分析技术，主要用于识别和预防信用欺诈行为。在早期，研究者使用人工或者统计学方法来识别欺诈行为。随着人工智能技术的发展，机器学习技术被广泛应用于反欺诈检测领域，缩短检测时间的同时，也极大提高了检测的准确率。然而隔三差五金融互联网的不断发展，信用欺诈行为也变得理加普遍多样。所以如何完善金融平台的风险检测手段，提高欺诈检测准确率，仍是互联网金融机构迫切需要解决的难题之一。最近，深度森林的研究为探索非神经网络的深度模型打开了一扇大门，它同时结合了神经网络和集成学习的一些特点，在多个应用领域都获得了不错的成绩。
[0003]虽然深度森林在很多领域中表现优异，但也存在一些不足之处，特别是在信用欺诈检测领域，第一，模型在训练具有空间或时间关系的数据集时，会通过多粒度扫描层提高样本的多样性，强化模型性能。然而信用...

【技术保护点】

【技术特征摘要】
1.一种基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，包括：对原始信用欺诈数据集进行数据清洗与特征预处理，并将其上传至分布式文件存储系统HDFS；读取数据初始化为一个RDD；初始化一个分布式深度旋转森林模型；使用Train_DF开始训练模型，使用Map算子将F个旋转森林的训练过程并行化；在所述旋转森林的内部，部分决策树组成子森林，每个子森林进行并行构建，子森林之间共享单个旋转矩阵；随机将训练集的特征空间P划分为K个不重合的子特征空间P
t,k
，k∈{1,2,
…
,K}，其中每个子空间中包含个特征；每个子森林构造一个旋转矩阵；训练生成模型，并利用训练好的信用欺诈检测模型对训练集进行检测分类。2.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，所述读取数据初始化为一个RDD包括使用Spark的Map算子将RDD转换为Dataset，其scheme约束为特征、标签和索引三列；将Dataset分割成训练集Train_DF和测试集Test_DF。3.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，所述初始化一个分布式深度旋转森林模型的级联层包括F个旋转森林，每个旋转森林包括T棵决策树。4.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，在旋转森林的内部，每个旋转森林由T棵决策树组成，有S个子森林进行并行构建。5.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，所述每个子森林构造一个旋转矩阵，是根据K个不重合的子特征空间进行K次抽样并经过PCA处理的过程，该过程借助Spark MLlib中的PCA算法进行并行构建。6.根据权利要求5所述基于分布式深度旋转森林的信用欺诈检测方法，其特征在于，所述并行构建具体步骤如下：S1.根据特征空间P
s,k
获得子集矩阵X
s,
；S2.随机抽取类别实例X
′
s,k
；S3.使用bootstrap算法从X
′
s,k...

【专利技术属性】
技术研发人员：陈宏伟，施德伟，陈子璇，
申请(专利权)人：湖北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人