【技术实现步骤摘要】
一种基于分布式深度旋转森林的信用欺诈检测方法及系统
[0001]本专利技术属于机器学习、数据挖掘、分布式计算
,特别涉及一种基于分布式深度旋转森林的信用欺诈检测方法及系统。
技术介绍
[0002]信用欺诈检测是一种数据分析技术,主要用于识别和预防信用欺诈行为。在早期,研究者使用人工或者统计学方法来识别欺诈行为。随着人工智能技术的发展,机器学习技术被广泛应用于反欺诈检测领域,缩短检测时间的同时,也极大提高了检测的准确率。然而隔三差五金融互联网的不断发展,信用欺诈行为也变得理加普遍多样。所以如何完善金融平台的风险检测手段,提高欺诈检测准确率,仍是互联网金融机构迫切需要解决的难题之一。最近,深度森林的研究为探索非神经网络的深度模型打开了一扇大门,它同时结合了神经网络和集成学习的一些特点,在多个应用领域都获得了不错的成绩。
[0003]虽然深度森林在很多领域中表现优异,但也存在一些不足之处,特别是在信用欺诈检测领域,第一,模型在训练具有空间或时间关系的数据集时,会通过多粒度扫描层提高样本的多样性,强化模型性能。然而信用 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,包括:对原始信用欺诈数据集进行数据清洗与特征预处理,并将其上传至分布式文件存储系统HDFS;读取数据初始化为一个RDD;初始化一个分布式深度旋转森林模型;使用Train_DF开始训练模型,使用Map算子将F个旋转森林的训练过程并行化;在所述旋转森林的内部,部分决策树组成子森林,每个子森林进行并行构建,子森林之间共享单个旋转矩阵;随机将训练集的特征空间P划分为K个不重合的子特征空间P
t,k
,k∈{1,2,
…
,K},其中每个子空间中包含个特征;每个子森林构造一个旋转矩阵;训练生成模型,并利用训练好的信用欺诈检测模型对训练集进行检测分类。2.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述读取数据初始化为一个RDD包括使用Spark的Map算子将RDD转换为Dataset,其scheme约束为特征、标签和索引三列;将Dataset分割成训练集Train_DF和测试集Test_DF。3.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述初始化一个分布式深度旋转森林模型的级联层包括F个旋转森林,每个旋转森林包括T棵决策树。4.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,在旋转森林的内部,每个旋转森林由T棵决策树组成,有S个子森林进行并行构建。5.根据权利要求1所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述每个子森林构造一个旋转矩阵,是根据K个不重合的子特征空间进行K次抽样并经过PCA处理的过程,该过程借助Spark MLlib中的PCA算法进行并行构建。6.根据权利要求5所述基于分布式深度旋转森林的信用欺诈检测方法,其特征在于,所述并行构建具体步骤如下:S1.根据特征空间P
s,k
获得子集矩阵X
s,
;S2.随机抽取类别实例X
′
s,k
;S3.使用bootstrap算法从X
′
s,k...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。