面向交易欺诈检测的深度特征提取方法技术

技术编号:36765371 阅读:8 留言:0更新日期:2023-03-08 21:19
本发明专利技术公开了一种面向交易欺诈检测的深度特征提取方法。本发明专利技术针对各类样本在空间中重叠情况严重的问题,本发明专利技术在分类之间引入一个深度特征提取模型,考虑将原始的重叠度高的特征映射到另一个特征空间中,在这个空间中各个类别样本不重叠,各子类也不重叠,并且类别间距离大于子类间距离;使用五元组采样和损失函数共同训练一个特征提取模型迫使提取出来的特征既保留了不同类的区别性特征,也尽量保持了各子类的独有特征。持了各子类的独有特征。持了各子类的独有特征。

【技术实现步骤摘要】
面向交易欺诈检测的深度特征提取方法


[0001]本专利技术涉及深度学习中表示学习领域,特别涉及一种面向交易欺诈检测的深度特征提取方法。

技术介绍

[0002]金融科技正推动电子交易支付的快速发展,与此同时信用卡交易欺诈的现象也日渐增多,这给运营商和金融机构带来的巨大的挑战。在信用卡欺诈交易检测的任务中,我们通常使用基于专家分析的方法或者数据分析方法来设计检测系统。专家分析通过制定规则来找出欺诈交易,该做法主观性强,可解释性差。数据分析方法是指利用机器学习相关算法识别异常交易,如支持向量机、逻辑回归、GBDT等。
[0003]传统的机器学习模型均基于一个基本假设:各个类别样本数量相差不大。然而在信用卡欺诈交易检测的任务中,我们可以获得的欺诈交易和正常交易的样本数量严重失衡,通常欺诈交易的数量十分稀少,该情况下如果使用传统的机器学习模型进行分类,模型将偏向于将异常样本识别成正常样本,这种结果并不会对模型的总体准确度产生太大影响,但这个模型为无效模型,因为我们建模的目的是想让其将异常样本检测出来。针对这个不平衡的问题,已经有不少学者提出使用表示学习的方法来提取出原始数据中具有区分度的特征并以这些特征分类。我们将异常交易检测看做一个二分类任务,大多数深度特征提取模型均是将异常交易样本统一归结为少数类样本,正常交易样本为多数类样本。这种做法使模型通过不断优化损失函数去迫使深度网络提取出类间有差异的特征,实际上,在我们的异常样本中存在不同子类,这是因为这些样本异常可能是由不同的原因导致,因此我们可能很难找出异常样本的共性特征。另外如果我们忽略了样本的类内特征的差异,可能使我们的特征提取模型提取的特征损失具有代表性的异常信息。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的缺陷,提供面向交易欺诈检测的深度特征提取方法。
[0005]本专利技术提供了如下的技术方案:
[0006]本专利技术提供一种面向交易欺诈检测的深度特征提取方法,引入一个深度特征提取模型,该模型可以提取出使类间和类内都有区分性的特征;为了使得深度特征提取模型可以学到保持类间差异性和类内差异性的特征,我们提出了五元组采样和损失函数;
[0007]特征提取模型采用一个多层感知机,如图1所示,这里仅列举一个4层网络,输入层神经元个数由原始特征决定,输出层神经元个数由我们最终所需提取到的特征数确定,隐藏层的层数和每层神经元的个数需要根据具体情况确定;下面我们介绍五元组采样和损失函数;
[0008]五元组采样:
[0009]在采样之前我们先通过在一些先验特征上使用聚类算法来获得各个类别样本的
子类,我们一般考虑使用基于密度的聚类算法,我们认为异常的样本 (少类样本)的异常可能是由多种原因导致的,在空间中距离近的一些异常样本点是由同一种原因导致;聚类之后,我们从样本集里面随机取一个异常样本点S
i
,然后按照以下规则取出一组样本点作为五元组五元组如图2所示;
[0010]S
i
,的定义如下:
[0011]S
i
:第i个被采样的少数类样本
[0012]离S
i
距离最近的多数类样本
[0013]S
i
的同类同簇的样本中与S
i
距离最远的少数类样本
[0014]S
i
的同类不同簇的样本中与S
i
距离最近的少数类样本
[0015]S
i
的同类不同簇的样本中与S
i
距离最远的少数类样本
[0016]根据我们的以上定义,在原始的特征空间中我们有如下距离关系成立:
[0017][0018]其中表示的是点S
i
和点S
j
之间的欧氏距离;
[0019]在空间中各点距离满足式(1)合乎情理,因此我们考虑将样本点映射到新的特征空间中时,任然需要满足以上关系成立;这种排序使提取的特征具有更加丰富的信息和更强烈的约束;在传统的类级的特征空间中,只要样本属于同一类,我们就认为两个样本相似;但在我们的专利技术中,只有两个样本是同一个类别并且存在于相同的子类时我们才认为它们是相似的;这迫使在我们的新特征空间中,同类样本距离相近在一起,另外同子类的样本也聚集在一起;
[0020]裕量损失函数:
[0021]为了强迫深度特征提取模型在提取出类间和类内中有区分性的特征和类内的相似特征的同时维持以上距离关系存在,我们将裕量损失函数引入到深度特征提取模型中;裕量损失函数定义为
[0022][0023]s.t.:
[0024][0025][0026][0027]δ
i
≥0,ρ
i
≥0,μ
i
≥0
[0028]其中δ
i
,ρ
i
,μ
i
是松弛变量,g1,g2,g3是裕度,W是模型的参数,γ是正则参数;
[0029]以上损失函数公式可以迫使特征提取模型在五元组采样基础上高效的提取出样
本中有区分性的特征;便于分类器利用新特征分类;理想情况下,在新的特征空间中,子类应该聚集成一个超球体,同类别样本各个子类之间保持一个安全裕度g1,同类别样本各个子类之间最大的距离为g2,不同类别的子类之间最大的裕度是g3;g1、g2、g3在二维空间中如图3所示;
[0030]整个流程具体如下所示:
[0031]Step 1:在已经学到的特征上通过聚类算法对样本进行聚类,得到各类样本的多个子类;
[0032]Step 2:在原始数据集中采样50%的样本作为子数据集,并按照Step 1 中生成的子类产生五元组列表;
[0033]Step 3:从每个类别中采样出相同数量的小批量样本,并且在Step 2中五元组列表查找出对应的五元组样本;
[0034]Step 4:用所有五元组数据训练特征提取模型,损失函数采用裕量损失函数;
[0035]Step 5:使用梯度反向传播更新特征提取模型参数;
[0036]Step 6:每5000次迭代在1

2和3

5之间交替一次直至收敛。
[0037]与现有技术相比,本专利技术的有益效果如下:
[0038]本专利技术在分类之间引入一个深度特征提取模型,考虑将原始的重叠度高的特征映射到另一个特征空间中,在这个空间中各个类别样本不重叠,各子类也不重叠,并且类别间距离大于子类间距离;
[0039]使用五元组采样和损失函数共同训练一个特征提取模型迫使提取出来的特征既保留了不同类的区别性特征,也尽量保持了各子类的独有特征。
附图说明
[0040]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0041]图1是本专利技术的实施例示意图之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向交易欺诈检测的深度特征提取方法,其特征在于,引入一个深度特征提取模型,该模型可以提取出使类间和类内都有区分性的特征;为了使得深度特征提取模型可以学到保持类间差异性和类内差异性的特征,由此提出五元组采样和损失函数;特征提取模型采用一个多层感知机,这里仅列举一个4层网络,输入层神经元个数由原始特征决定,输出层神经元个数由我们最终所需提取到的特征数确定,隐藏层的层数和每层神经元的个数需要根据具体情况确定;下面介绍五元组采样和损失函数;五元组采样:在采样之前我们先通过在一些先验特征上使用聚类算法来获得各个类别样本的子类,我们一般考虑使用基于密度的聚类算法,我们认为异常的样本(少类样本)的异常可能是由多种原因导致的,在空间中距离近的一些异常样本点是由同一种原因导致;聚类之后,我们从样本集里面随机取一个异常样本点S
i
,然后按照以下规则取出一组样本点作为五元组,然后按照以下规则取出一组样本点作为五元组S
i
,的定义如下:S
i
:第i个被采样的少数类样本离S
i
距离最近的多数类样本S
i
的同类同簇的样本中与S
i
距离最远的少数类样本S
i
的同类不同簇的样本中与S
i
距离最近的少数类样本S
i
的同类不同簇的样本中与S
i
距离最远的少数类样本根据我们的以上定义,在原始的特征空间中我们有如下距离关系成立:其中表示的是点S
i
和点S
j
之间的欧氏距离;在空间中各点距离满足式(1)合乎情理,因此我们考虑将样本点映射到新的特征空间中时,任然需要...

【专利技术属性】
技术研发人员:何莎徐小龙邬晶李少远周松
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1