当前位置: 首页 > 专利查询>同济大学专利>正文

基于动态加权信息熵的欺诈交易识别方法、系统及装置制造方法及图纸

技术编号:31077897 阅读:21 留言:0更新日期:2021-12-01 11:29
本发明专利技术提供一种基于动态加权信息熵的欺诈交易识别方法、系统及装置,包括以下步骤:使用动态加权信息熵筛选one-class-SVM模型,选出重叠数据子集动态加权信息熵最大的one-class-SVM模型M

【技术实现步骤摘要】
基于动态加权信息熵的欺诈交易识别方法、系统及装置


[0001]本专利技术涉及电子欺诈交易识别
,特别是涉及一种基于动态加权信息熵的欺诈交易识别方法、系统及装置。

技术介绍

[0002]近年来,将金融和科技融合的金融科技成为热点研究领域之一。人工智能推动力了金融科技以提供更高质量的服务,与此同时,金融科技为人工智能研究和创新提供了广泛的平台和应用场景。电子交易欺诈检测是金融科技最重要的研究之一,已引起广泛关注。识别欺诈交易具有很大的挑战性,其中最重要的原因之一是数据不均衡问题,尤其是带有数据重叠(overlapping)的数据不均衡问题。当不同类别的数据之间的样本量差异很大时,就会发生类别不平衡,这在电子交易记录中很明显,因为欺诈交易的数量远远少于正常交易的数量。Overlapping是指不同类别的样本包含在同一数据空间区域中,这会增加分类器区分重叠区域中不同类别的样本的学习难度。由于欺诈者将不遗余力地模仿真实持卡人的交易行为以使欺诈检测系统失效,欺诈交易和合法交易将在某些数据空间区域中交织在一起,并导致overlapping问题。如果只是数据不均衡(non-overlapping非重叠)问题,即使数据不均衡比很高,也可能不会对分类器的性能带来很大的影响,因为有些分类模型的性能于不同类别样本的数量无关,例如基于最大间隔的分类模型等。但是,如果数据不均衡和overlapping问题同时出现,那么即使基于最大间隔的分类器也无法在正确地区分不同类别的样本方面取得良好的性能。
[0003]在在电子欺诈交易识别中,数据不均衡是影响欺诈交易识别模型性能的关键因素之一。而由于欺诈分子挖空心思来模仿持卡人的真实交易行为来避免被识别,从而使得真实交易与欺诈交易数据交叉,带来overlapping问题。带有overlapping的数据不均衡问题使得欺诈交易识别更加困难。
[0004]现有的研究主要是采用最近邻方法k-NN模型对原始数据集进行划分得到overlapping数据子集和non-overlapping数据子集。针对overlapping数据子集,通常采用采样方法去除其中的多数类样本,使得不同类别样本之间的边界更为清晰,对准确识别少数类样本更加有利。最后再将处理后的overlapping数据子集与non-overlapping数据子集合并为新的数据集,然后使用此新的数据集训练机器学习模型来区分不同类别的样本。这类方法存在一些明显的缺陷,首先overlapping数据子集中的部分样本被删除,虽然得到了更清晰的决策边界,但是可能会引起重要的样本信息丢失,使得决策边界出现错误。此外,overlapping数据子集由k-NN模型从原始数据中划分得到,但是k-NN模型参数的选择缺乏指导,通常是经过多次试验才能确定,需要消耗很多时间和计算资源,尤其是在有海量交易数据的欺诈交易识别场景中,k-NN模型难以适用。
[0005]因此,希望能够解决如何有效、快速识别overlapping和non-overlapping数据子集,如何加速后续非线性机器学习模型的训练过程,减少模型训练的资源消耗,如何更好的进行电子欺诈交易识别的问题。

技术实现思路

[0006]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于动态加权信息熵的欺诈交易识别方法、系统及装置,用于解决现有技术中如何有效、快速识别overlapping和non-overlapping数据子集,如何加速后续非线性机器学习模型的训练过程,减少模型训练的资源消耗,如何更好的进行电子欺诈交易识别的问题。
[0007]为实现上述目的及其他相关目的,本专利技术提供一种基于动态加权信息熵的欺诈交易识别方法,包括以下步骤:使用欺诈交易样本训练含有超参数的one-class-SVM(单分类模型)模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数对应的one-class-SVM模型划分得到的重叠数据子集的动态加权信息熵,选择动态加权信息熵最大的重叠数据子集对应超参数对应的one-class-SVM模型,作为重叠数据子集的动态加权信息熵最大的one-class-SVM模型M
ocsvm
;使用one-class-SVM模型M
ocsvm
将原始数据划分为重叠数据子集和非重叠数据子集;使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,使用非线性分类器模型M
clf
区分重叠数据子集中的欺诈交易和正常交易;生成由one-class-SVM模型M
ocsvm
和非线性分类器模型M
clf
构成的欺诈交易识别模型。
[0008]于本专利技术的一实施例中,所述重叠数据子集的动态加权信息熵定义为:
[0009]G
DWE
(θ)=W
snr
*H
[0010]其中,θ表示one-class-SVM模型的一组超参数;H表示重叠数据子集的信息熵;W
snr
表示H的动态权重,由少数类样本的信噪比决定,H和W
snr
分别定义为:
[0011][0012][0013]其中i∈{0,1,...,k},k表示重叠数据子集中的类别(对于欺诈交易识别来说k=1),p
i
表示重叠数据子集中的某个样本属于类别i的概率,n
all
表示原始数据集中少数类样本的数量,n
outliers
表示原始数据集中的被判定为噪声数据的少数类样本数量。
[0014]于本专利技术的一实施例中,所述非线性分类器模型为深度学习模型。
[0015]于本专利技术的一实施例中,所述使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,包括:使用重叠数据子集的第一部分样本训练非线性分类器模型M
clf
;使用重叠数据子集的第二部分样本验证非线性分类器模型M
clf
;重复训练和验证步骤直到所述非线性分类器模型M
clf
的准确性符合预设要求。
[0016]为实现上述目的,本专利技术还提供一种基于动态加权信息熵的欺诈交易识别系统,包括:训练模块、划分模块、区分模块和模型生成模块;所述训练模块用于使用欺诈交易样本训练含有超参数的one-class-SVM模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重
叠数据子集和非重叠数据子集;计算不同超参数对应的one-class-SVM模型划分得到的重叠数据子集的动态加权信息熵,选择动态加权信息熵最大的重叠数据子集对应超参数对应的one-class-SVM模型,作为重叠数据子集的动态加权信息熵最大的one-c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态加权信息熵的欺诈交易识别方法,其特征在于,包括以下步骤:使用欺诈交易样本训练含有超参数的one-class-SVM模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数对应的one-class-SVM模型划分得到的重叠数据子集的动态加权信息熵,选择动态加权信息熵最大的重叠数据子集对应超参数对应的one-class-SVM模型,作为重叠数据子集的动态加权信息熵最大的one-class-SVM模型M
ocsvm
;使用one-class-SVM模型M
ocsvm
将原始数据划分为重叠数据子集和非重叠数据子集;使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,使用非线性分类器模型M
clf
区分重叠数据子集中的欺诈交易和正常交易;生成由one-class-SVM模型M
ocsvm
和非线性分类器模型M
clf
构成的欺诈交易识别模型。2.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述重叠数据子集的动态加权信息熵定义为:G
DWE
(θ)=W
snr
*H其中,θ表示one-class-SVM模型的一组超参数;H表示重叠数据子集的信息熵;W
snr
表示H的动态权重,由少数类样本的信噪比决定,H和W
snr
分别定义为:分别定义为:其中i∈{0,1,...,k},k表示重叠数据子集中的类别(对于欺诈交易识别来说k=1),p
i
表示重叠数据子集中的某个样本属于类别i的概率,n
all
表示原始数据集中少数类样本的数量,n
outliers
表示原始数据集中的被判定为噪声数据的少数类样本数量。3.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述非线性分类器模型为深度学习模型。4.根据权利要求1所述的基于动态加权信息熵的欺诈交易识别方法,其特征在于,所述使用one-class-SVM模型M
ocsvm
划分得到的重叠数据子集训练非线性分类器模型M
clf
,包括:使用重叠数据子集的第一部分样本训练非线性分类器模型M
clf
;使用重叠数据子集的第二部分样本验证非线性分类器模型M
clf
;重复训练和验证步骤直到所述非线性分类器模型M
clf
的准确性符合预设要求。5.一种基于动态加权信息熵的欺诈交易识别系统,其特征在于,包括:训练模块、划分模块、区分模块和模型生成模块;所述训练模块用于使用欺诈交易样本训练含有超参数的one-class-SVM模型;其中属于使用训练后的one-class-SVM模型将原始数据划分为重叠数据子集和非重叠数据子集;计算不同超参数数据划分为重叠数据子...

【专利技术属性】
技术研发人员:蒋昌俊闫春钢丁志军刘关俊张亚英李震川
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1