【技术实现步骤摘要】
一种基于半监督集成学习的欺诈检测方法及系统
[0001]本专利技术涉及信用卡欺诈检测
,尤其涉及一种基于半监督集成学习的欺诈检测方法及系统。
技术介绍
[0002]互联网的快速发展,促进了各大传统行业的变革,推动着经济快速发展,极大地提升了社会经济效益。“互联网+信用卡”的结合,更是促进了信用卡在全球范围内的普及,诸多知名银行与金融机构都发行了信用卡。但是,由于各银行机构前期为了抢占市场,降低了信用卡申请办理的门槛,从而导致了许多信用卡欺诈交易现象。主要的信用卡欺诈类型包括伪冒身份交易、伪造卡欺诈、信用卡遗失被盗、信用卡套现等。信用卡欺诈中主要涉及公共数据的可用性,数据的高度不平衡,欺诈性质的变化以及虚假警报的数量众多等问题,给信用卡欺诈检测造成了很大的挑战。因此,亟需研究更高效的信用卡欺诈检测方法,营造信用卡业务的健康使用环境,对扩大用户消费以及社会经济的稳定持续增长具有重要意义。
[0003]目前随着机器学习技术的兴起以及其表现出来的良好性能,机器学习技术已被用于检测欺诈。常用的基于机器学习的欺诈检测方法主 ...
【技术保护点】
【技术特征摘要】
1.一种基于半监督集成学习的欺诈检测方法,其特征在于,所述方法包括步骤:S1、提取训练样本中的样本特征和样本标签,将所述训练样本划分为正常样本集和欺诈样本集;S2、分别构建第一孤立森林异常检测模型和第二孤立森林异常检测模型,利用第一孤立森林异常检测模型对正常样本集进行模型训练,以及利用第二孤立森林异常检测模型对欺诈样本集进行模型训练,构建得到标签数据样本集和无标签数据样本集,并获取无标签数据样本集中每一个样本的异常值;S3、根据半监督集成学习模型对所述标签数据样本集构建多个基学习器并进行训练,每一个基学习器采用逻辑回归优化器的损失函数对各自的基学习器的参数进行更新,获取得到所有更新后的基学习器的参数;S4、对半监督集成学习模型的损失函数进行改进,利用无标签数据样本集中的样本异常值进行梯度求导以优化基学习器的参数,得到训练好的半监督欺诈检测模型;S5、根据半监督欺诈检测模型对待检测样本进行模型识别,输出样本检测结果。2.如权利要求1所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S2包括:S201、从所述正常样本集中随机选取多个样本作为样本子集;S202、从样本特征中随机抽取一个特征,在该特征的最大特征值和最小特征值之间随机选取一个特征值,以选取的特征值为参考特征值;S203、在样本子集中,参考特征值所对应的样本为根节点,样本特征值小于参考特征值的样本被放到当前节点的左子树,样本特征值大于参考特征值的样本被放到当前节点的右字树;S204、在样本子集中递归执行步骤S202和S203,不断构造新的子树节点,直到所有叶子节点都有一个样本或者二叉树达到最高度,生成一颗完整的孤立树;S205、迭代步骤S201~S204,得到多颗孤立树,生成第一孤立森林异常检测模型。3.如权利要求2所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S2包括:利用所述第一孤立森林异常检测模型对正常样本集进行检测,计算得到每个正常样本的异常评分,当正常样本的异常评分接近1时,该样本判断为异常样本,反之,判断为正常样本;异常评分计算公式为:(1);其中,h(x)表示样本x从二叉树的根节点到叶子节点所经过的边的数目,E(h(x))表示样本x 在所有二叉树中h(x)的平均值,n表示单棵二叉树的训练样本的样本数,c(n)表示给定包含n个样本子集时二叉树的平均路径长度,用于对h(x)做归一化处理。4.如权利要求3所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S2包括:利用所述第二孤立森林异常检测模型对欺诈样本集进行检测,计算每一个欺诈样本的
异常评分,当欺诈样本的异常评分接近1时,该样本判断为异常样本,反之,判断为欺诈样本;将正常样本集中的异常样本以及欺诈样本集中的异常样本组成无标签数据样本集,并记录无标签数据样本集中每一个样本的异常值;正常样本集中除去异常样本后的所有样本以及欺诈样本集中除去异常样本后的所有样本组成标签数据样本集。5.如权利要求1所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S3包括:利用标签数据样本集构建多个基学习器,初始化基学习器的参数,基学习器采用的逻辑回归的优化器损失函数Loss(x)为:
ꢀꢀ
(2); (3);
ꢀꢀ
(4);其中,L为标签数据样本集,w
k
为第k个基学习器模型的权重参数,w
kT
为w
k
的转置,b
k
为第k个基学习器模型的偏置参数,x
i
为第i个输入数据,y
i
为第i个输入数据的数据标签,f
k (x)为第k个基学习器模型输出,f
k (x
i
)为第k个基学习器在第i个输入数据情况下输出,λ为默认参数,大小默认为1;求解损失函数Loss(x)最小化,通过梯度求导不断优化损失值进行最小化,将损失函数Loss(x)中对模型参数梯度求导后的值进行反向传播,得到更新后的该基学习器的参数。6.如权利要求5所述的基于半监督集成学习的欺诈检测方法,其特征在于,所述步骤S3包括:利用所述半监督集...
【专利技术属性】
技术研发人员:韩蒙,章燕,林昶廷,王滨,董建锋,丁吉,
申请(专利权)人:浙江君同智能科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。