【技术实现步骤摘要】
基于动态加权信息熵的欺诈交易识别方法、系统及装置
[0001]本专利技术涉及电子欺诈交易识别
,特别是涉及一种基于动态加权信息熵的欺诈交易识别方法、系统及装置。
技术介绍
[0002]近年来,将金融和科技融合的金融科技成为热点研究领域之一。人工智能推动力了金融科技以提供更高质量的服务,与此同时,金融科技为人工智能研究和创新提供了广泛的平台和应用场景。电子交易欺诈检测是金融科技最重要的研究之一,已引起广泛关注。识别欺诈交易具有很大的挑战性,其中最重要的原因之一是数据不均衡问题,尤其是带有数据重叠(overlapping)的数据不均衡问题。当不同类别的数据之间的样本量差异很大时,就会发生类别不平衡,这在电子交易记录中很明显,因为欺诈交易的数量远远少于正常交易的数量。Overlapping是指不同类别的样本包含在同一数据空间区域中,这会增加分类器区分重叠区域中不同类别的样本的学习难度。由于欺诈者将不遗余力地模仿真实持卡人的交易行为以使欺诈检测系统失效,欺诈交易和合法交易将在某些数据空间区域中交织在一起,并导致overlapping问题。如果只是数据不均衡(non-overlapping非重叠)问题,即使数据不均衡比很高,也可能不会对分类器的性能带来很大的影响,因为有些分类模型的性能于不同类别样本的数量无关,例如基于最大间隔的分类模型等。但是,如果数据不均衡和overlapping问题同时出现,那么即使基于最大间隔的分类器也无法在正确地区分不同类别的样本方面取得良好的性能。
[0003]在在电子欺诈交易识别中, ...
【技术保护点】
【技术特征摘要】
1.一种基于动态加权信息熵的欺诈交易识别方法,其特征在于,包括以下步骤:使用欺诈交易样本训练含有超参数的one-class-SVM模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数对应的one-class-SVM模型划分得到的重叠数据子集的动态加权信息熵,选择动态加权信息熵最大的重叠数据子集对应超参数对应的one-class-SVM模型,作为重叠数据子集的动态加权信息熵最大的one-class-SVM模型M
ocsvm
;使用one-class-SVM模型M
ocsvm
将原始数据划分为重叠数据子集和非重叠数据子集;使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,使用非线性分类器模型M
clf
区分重叠数据子集中的欺诈交易和正常交易;生成由one-class-SVM模型M
ocsvm
和非线性分类器模型M
clf
构成的欺诈交易识别模型。2.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述重叠数据子集的动态加权信息熵定义为:G
DWE
(θ)=W
snr
*H其中,θ表示one-class-SVM模型的一组超参数;H表示重叠数据子集的信息熵;W
snr
表示H的动态权重,由少数类样本的信噪比决定,H和W
snr
分别定义为:分别定义为:其中i∈{0,1,...,k},k表示重叠数据子集中的类别(对于欺诈交易识别来说k=1),p
i
表示重叠数据子集中的某个样本属于类别i的概率,n
all
表示原始数据集中少数类样本的数量,n
outliers
表示原始数据集中的被判定为噪声数据的少数类样本数量。3.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述非线性分类器模型为深度学习模型。4.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,包括:使用重叠数据子集的第一部分样本训练非线性分类器模型M
clf
;使用重叠数据子集的第二部分样本验证非线性分类器模型M
clf
;重复训练和验证步骤直到所述非线性分类器模型M
clf
的准确性符合预设要求。5.一种基于动态加权信息熵的欺诈交易识别系统,其特征在于,包括:训练模块、划分模块、区分模块和模型生成模块;所述训练模块用于使用欺诈交易样本训练含有超参数的one-class-SVM模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数数据划分为重叠数据子...
【专利技术属性】
技术研发人员:蒋昌俊,闫春钢,丁志军,刘关俊,张亚英,李震川,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。