一种基于不平衡流数据分类的信用卡欺诈检测方法技术

技术编号:24332238 阅读:31 留言:0更新日期:2020-05-29 20:12
本发明专利技术公开了一种基于不平衡流数据分类的信用卡欺诈检测方法。本发明专利技术信用卡流数据分类模型中包含了基于袋装的信用卡流数据过采样机制,信用卡流数据多类型概念漂移处理机制、信用卡流数据基础分类器加权机制、信用卡流数据集成剪枝机制以及分类预测机制。本发明专利技术无需保留任意过去时刻的信用卡流数据小样本,可以对类别分布不平衡的信用卡动态流数据进行有效地分类预测,以检测到信用卡欺诈交易数据。

A credit card fraud detection method based on unbalanced flow data classification

【技术实现步骤摘要】
一种基于不平衡流数据分类的信用卡欺诈检测方法
本专利技术涉及一种基于不平衡流数据分类的信用卡欺诈检测方法。
技术介绍
信用卡的广泛使用,在为商家和用户交易带来极大方便的同时,也面临大量的信用卡欺诈,我国金融机构每年因信用卡欺诈损失数十亿元。信用卡欺诈是当前大数据金融时代国家与社会特别是银行业面临的一个金融风险,如何实现信用卡流数据欺诈检测是金融机构需要解决的一个重要技术问题和社会问题,具有重大的金融价值和社会意义。在信用卡离线刷卡或在线购物应用背景下,产生了一种海量、实时、动态的数据形式,被称为信用卡流数据。信用卡流数据的动态变化称为概念漂移,是信用卡流数据最重要的特点之一,它描述着信用卡流数据分布随着环境而不断变化的过程。通常地,信用卡流数据分布的变化是不可事先预知的,这为信用卡动态流数据的分类提出了重大挑战。传统的信用卡流数据分类技术假定数据分布是稳定的,然而在信用卡动态数据流场景中,信用卡流数据分布在不断变化。信用卡真实应用场景中的流数据往往包含了多种类型的概念漂移,然而,目前已存在的信用卡流数据分类方法通常只能处理某一特定类型的概念漂移,这并不能够满足信用卡欺诈检测的应用需求。信用卡流数据分类过程中数据类别不平衡问题是信用卡欺诈检测的另一个重要问题。在信用卡流数据类别不平衡学习中,信用卡流数据块小样本的数量往往远远小于大样本的数量,因此传统的信用卡流数据分类技术,即仅考虑平衡数据流的分类技术对信用卡流数据小样本的识别能力很差。传统分类器的训练通常是基于信用卡消费数据中类别分布是大致平衡这一假设,而该假设在信用卡流数据应用中并不成立。在信用卡不平衡流数据分类中,概念漂移和类别不平衡问题会共同降低信用卡流数据分类模型的性能,并且类别不平衡问题会加大概念漂移学习的难度。例如,信用卡流数据欺诈检测中基于分类性能的概念漂移检测机制会对不平衡率非常敏感,从而不能及时识别出数据分布的变化;类别不平衡处理技术需要随着信用卡流数据类别不平衡率的变化而适应性地调整。在信用卡流数据欺诈检测分类研究中,现有的技术在概念漂移和类别不平衡处理机制方面虽然已分别取得了一定的成效,但处理二者联合问题的技术还比较缺乏。基于每次处理的信用卡流数据样本数量,处理概念漂移和类别不平衡联合问题的信用卡流数据欺诈检测技术可以分为在线算法和基于数据块的算法。在线算法每次只处理一个样本,因此算法的稳定性较差。基于数据块的算法每次都需要一定量的信用卡流数据样本去建立模型,因此这类算法的稳定性较好。然而,检测的性能往往对数据块的大小十分敏感,若信用卡流数据块过大,则用于训练基础分类器的训练集中很容易包含概念漂移。相反地,若信用卡流数据块过小,则基础分类器的信用卡流数据训练样本数量不足,很容易造成过拟合即信用卡流数据欺诈检测中造成欺诈数据被分为非欺诈样本。为了处理信用卡流数据类别不平衡问题,块集成分类方法往往需要保留先前信用卡流数据块中的小样本,进而用以平衡信用卡流数据最新数据块中样本的类别分布。由于需要保留一部分先前时刻的信用卡流数据项,基于数据块的信用卡流数据欺诈检测分类方法不严格满足在线学习的需求。因此,若某时刻信用卡流数据样本的类别发生对调,则基于块的集成分类信用卡欺诈检测方法往往不能及时适应信用卡流数据新的数据流环境。
技术实现思路
为了弥补现有信用卡流数据欺诈检测方法的不足,本专利技术旨在提供一种基于不平衡流数据分类的信用卡欺诈检测方法,该方法可以快速、有效地提高对不平衡动态信用卡流数据的欺诈检测性能。本专利技术解决技术问题所采取的技术方案为:一种基于不平衡流数据分类的信用卡欺诈检测方法,包括以下步骤:1)在当前时刻输入信用卡流数据块,该流数据块中某一类别样本即信用卡使用的一类数据的数量少于另一类别的数量,即每个信用卡流数据块中样本的类别分布是不平衡的。2)把该信用卡流数据块中的样本划分成两部分,即信用卡流数据训练块和信用卡流数据测试块,其中的信用卡流数据训练块作为训练集用于训练新的基础分类器,信用卡流数据测试块作为测试集用于评估检测方法的性能。3)在当前的信用卡流数据训练块中,基于袋装算法获取若干类别分布平衡的子块,用来训练候选分类器。每个子块中包含了当前信用卡流数据训练块中的小样本以及一部分随机采样的大样本,并且随机采样大样本的数量取决于当前的信用卡流数据训练块中小样本的总量。4)每个信用卡流数据子块训练得到一个基础分类器,每个基础分类器中的信用卡流数据训练块样本的类别分布是平衡的。5)计算最新信用卡流数据训练块中样本的权重,其中易分错的信用卡流数据样本被赋予较高的更新权重。6)使用最新的信用卡流数据块中样本更新分类模型中先前的基础分类器。7)计算每个基础分类器的权重。去除分类模型中权重最小的基础分类器。同时去除性能较差的基础分类器,使得分类模型较快地适应新的信用卡流数据检测环境。8)基于信用卡流数据基础分类器的权重,综合分类模型中所有基础分类器的性能,完成对信用卡流数据测试样本的欺诈检测。本专利技术与现有技术相比,本专利技术产生的有益效果是:本专利技术在处理信用卡流数据欺诈检测中类别不平衡问题时,无需保留和访问任何先前时刻的信用卡流数据小样本,可以避免在当前环境中引入概念漂移和复杂类型的信用卡流数据样本。通过使用袋装算法在信用卡流数据当前数据块中进行过采样可以平衡当前信用卡流数据环境的类别数据分布,提高基础分类器对信用卡流数据小样本,即欺诈样本的识别率。若某时刻信用卡流数据环境中发生类别型的概念漂移,即信用卡流数据小样本变成大样本,则基于袋装的采样机制可以较快地调整算法以适应信用卡流数据动态环境。在处理信用卡流数据欺诈检测中的概念漂移问题时,本专利技术提出了一个信用卡流数据多类型漂移处理机制,周期性地更新先前的信用卡流数据基础分类器,可以使得分类模型快速适应信用卡流数据新的数据环境。同时,由于信用卡流数据最近数据块中样本的数据分布最为接近未来不久的信用卡流数据环境,则更新机制可以使得分类模型同时应对多种类型的信用卡流数据概念漂移。周期性更新机制始终赋予易分错样本较高的更新代价,从而提高对信用卡流数据难处理样本的识别率。在对信用卡流数据测试样本进行分类检测时,欺诈预测结果需同时考虑集成分类模型中所有基础分类器的预测结果。为了降低检测方法的时间和存储开销,分类模型中只保留了性能最好一定量的基础分类器,从而可以提高对信用卡流数据漂移应对的效率。因为信用卡流数据欺诈检测中需要被高速处理,信用卡流数据基础分类器的权重设置可使用分段加权机制,直接赋予候选分类器最高的权重,从而可以避免使用交叉验证机制,进一步节省信用卡流数据欺诈检测的时间开销。具体实施方式本专利技术提出一种基于不平衡流数据分类的信用卡欺诈检测方法,该方法无需保留任意过去时刻的信用卡流数据小样本,可以对类别分布不平衡的信用卡动态流数据进行有效地分类预测,以检测到信用卡欺诈交易数据。首先,该方法在每个时刻只需要学习信用卡流数据一个数据块,并且不需要访问过去的本文档来自技高网
...

【技术保护点】
1.一种基于不平衡流数据分类的信用卡欺诈检测方法,其特征在于:包括以下步骤:/n1)在当前时刻输入信用卡流数据块,该流数据块中某一类别样本即信用卡使用的一类数据的数量少于另一类别的数量,即每个信用卡流数据块中样本的类别分布是不平衡的;/n2)把该信用卡流数据块中的样本划分成两部分,即信用卡流数据训练块和信用卡流数据测试块,其中的信用卡流数据训练块作为训练集用于训练新的基础分类器,信用卡流数据测试块作为测试集用于评估检测方法的性能;/n3)在当前的信用卡流数据训练块中,基于袋装算法获取若干类别分布平衡的子块,用于训练候选分类器;每个子块中包含了当前信用卡流数据训练块中的小样本以及一部分随机采样的大样本,并且随机采样大样本的数量取决于当前的信用卡流数据训练块中小样本的总量;/n4)每个信用卡流数据子块训练得到一个基础分类器,每个基础分类器中的信用卡流数据训练块样本的类别分布是平衡的;/n5)计算最新信用卡流数据训练块中样本的权重,其中易分错的信用卡流数据样本被赋予较高的更新权重;/n6)使用最新的信用卡流数据块中样本更新分类模型中先前的基础分类器;/n7)计算每个基础分类器的权重,去除分类模型中权重最小的基础分类器;同时去除性能较差的基础分类器,使得分类模型较快地适应新的信用卡流数据检测环境;/n8)基于信用卡流数据基础分类器的权重,综合分类模型中所有基础分类器的性能,完成对信用卡流数据测试样本的欺诈检测。/n...

【技术特征摘要】
1.一种基于不平衡流数据分类的信用卡欺诈检测方法,其特征在于:包括以下步骤:
1)在当前时刻输入信用卡流数据块,该流数据块中某一类别样本即信用卡使用的一类数据的数量少于另一类别的数量,即每个信用卡流数据块中样本的类别分布是不平衡的;
2)把该信用卡流数据块中的样本划分成两部分,即信用卡流数据训练块和信用卡流数据测试块,其中的信用卡流数据训练块作为训练集用于训练新的基础分类器,信用卡流数据测试块作为测试集用于评估检测方法的性能;
3)在当前的信用卡流数据训练块中,基于袋装算法获取若干类别分布平衡的子块,用于训练候选分类器;每个子块中包含了当前信用卡流数据训练块中的小样本以及一部分随机采样的大样本,并且随机采样大样本的数量取决于当前的信用卡流数据训练块中小样本的总量;
4)每个信用卡流数据子块训练得到一个基础分类器,每个基础分类器中的信用卡流数据训练块样本的类别分布是平衡的;
5)计算最新信用卡流数据训练块中样本的权重,其中易分错的信用卡流数据样本被赋予较高的更新权重;
6)使用最新的信用卡流数据块中样本更新分类模型中先前的基础分类器;
7)计算每个基础分类器的权重,去除分类模型中权重最小的基础分类器;同时去除性能较差的基础分类器,使得分类模型较快地适应新的信用卡流数据检测环境;
8)基于信用卡流数据基础分类器的权重,综合分类模型中所有基础分类器的性能,...

【专利技术属性】
技术研发人员:任思琪韩嵩
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1