【技术实现步骤摘要】
一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法
本专利技术涉及一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法,属于计算机应用
技术介绍
随着互联网的迅速发展,消费信贷热不断升温,人们也越来越倾向于先借款享受,后还款的消费观念。在金融信贷领域,不管是各大银行还是网络P2P借贷平台,都已经被发展成为一项具有应用前景,越来越多的企业借助现有成熟的机器学习模型对于信贷用户做出信用的评估等级,用以辅助是否放贷的决策。在信用卡领域故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为层出不穷,无意给投资放贷带来了极大的风险。国内存在一些关于信用风险评估的文献研究表明了随机森林模型对于P2P网贷借款人风险评估的准确度相对较高。在信贷交易过程中,双方信息并不对称。目前很多学者已经将反欺诈模型建立在神经网络、深度学习等算法去解决预测问题,但超参数无法确认是否最优,且容易出现过拟合的现象,训练过程冗长。RF算法是集成学习的一种,在数据分析领域有广泛的应用场景。RF模型对用 ...
【技术保护点】
1.一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法,其特征在于,其包括/n以下步骤:/nS1、将原始信用卡数据集进行离散化处理、归一化处理、特征属性筛选,经过对数据集的一系列规范化处理之后获得易于处理、少冗余、干净、非均衡的数据集;/nS2、将S1得到的数据集进一步做代价敏感学习处理,对S1得到的非均衡数据集进行均衡化处理,使得违约用户的数量与可信任用户数量接近1:1;/nS3、通过S1、S2得到的数据集进行特征属性的选取,对于数据集中所有的属性进行筛选,使用SPSS软件利用公式(3)进行属性之间冗余度计算检测;对其中高冗余的属性进行删除,确保在有限属性数量的基础上 ...
【技术特征摘要】
1.一种基于RF-DBSCAN算法的信用卡违约欺诈识别方法,其特征在于,其包括
以下步骤:
S1、将原始信用卡数据集进行离散化处理、归一化处理、特征属性筛选,经过对数据集的一系列规范化处理之后获得易于处理、少冗余、干净、非均衡的数据集;
S2、将S1得到的数据集进一步做代价敏感学习处理,对S1得到的非均衡数据集进行均衡化处理,使得违约用户的数量与可信任用户数量接近1:1;
S3、通过S1、S2得到的数据集进行特征属性的选取,对于数据集中所有的属性进行筛选,使用SPSS软件利用公式(3)进行属性之间冗余度计算检测;对其中高冗余的属性进行删除,确保在有限属性数量的基础上获得最大程度的信息量;
其中,rA,B表示属性AB之间的相关度,A表示属性A,B表示属性B,表示属性A,B的均值,σA表示属性A的标准差,σB表示属性B的标准差;
S4、将经过步骤S1、S2、S3处理之后的数据输入RF模型,构建RF模型首先采用Gini指标作为决策树的生成方式,之后确定RF模型最优随机分割变量数mtry和决策树的数量ntree,对训练集数据进行有效监督学习生成RF模型,对测试集样本作出分类得到可信任用户及违约用户分类结果;
S5、对S4学习生成的RF模型的分类精确度进行衡量,采用ROC曲线作为评价指标对RF模型分类性能进行测评,根据得到的高精确度分类结果来确保DBSCAN模型的输入数据高质量;
S6、将RF模型得到的分类结果赋予不同的初始欺诈概率值,借助DBSCAN算法能自发的形成任意形状的簇的特征,通过控制不同的聚类程度,来得到与之对应的不同的离异点;依据违约用户的初始欺诈阈值来设定欺诈概率的阈值,将大于阈值的数据作为DBSCAN模型的输入;
S7、DBSCAN模型的搭建,首先需要特征属性的重要度衡量,在RF模型中,依次删除单个特征属性其余属性保持不变,依据当前删除特征属性之后的性能下降的程度作为特征属性的重要度衡量指标,下降性能越多的,表明该特征属性对于分类任务越重要,选择最重要的两个属性作为DBSCAN模型的坐标值的依据,其次,借助DBSCAN模型的超参ε-邻域、邻域内样本个数M进行调控,来决定形成的簇的个数,从而控制聚类的聚集程度,以得到不同程度的离异点,根据离异的程度不同加以不同的欺诈概率,将得到的异常点加大其欺诈概率,对欺诈概率大的节点进行标明排序,最终,通过RF模型的分类结果及DBSCAN模型的欺诈概率与标的信息进行对比从而得到精确度衡量。
2.如权利要求1所述的信用卡违约欺诈识别方法,其特征在于,在步骤S1中,所述离散化处理用3-4-5规则处理,对应的根据3-4-5规则处理后的用户信用卡可用额度变量取值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。