一种基于有监督学习和无监督学习的反欺诈方法技术

技术编号：23162286 阅读：78 留言：0更新日期：2020-01-21 22:05

本发明专利技术公开了一种基于有监督学习和无监督学习的反欺诈方法，具体步骤如下：数据预处理，数据转换，创建高斯混合模型，期望最大化算法，有监督学习，无监督学习，预测，该基于有监督学习和无监督学习的反欺诈方法使用有监督学习和无监督学习结合的方法来建立反欺诈模型，有监督学习模型和无监督学习模型被包含在一个大的模型中，这个大的模型将达到集成模型的效果，预测的结果将会优于单独考虑有监督学习或无监督学习时的效果，而且有监督学习和无监督学习是互补的，两种学习方式结合将可以检测出已知的欺诈模式和未知的欺诈模式。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于有监督学习和无监督学习的反欺诈方法
本专利技术是一种基于有监督学习和无监督学习的反欺诈方法，属于反欺诈

技术介绍
在金融领域的大量订单或交易中，存在着正常的数据和很小一部分的不正常的有欺诈性质的数据，如何从大量的即时金融交易中检测出有欺诈性质的交易并及时的处理是一个很重要的工作，而机器学习的方法已经大量的应用与反欺诈的模型中，机器学习的算法可以大致的被分类为有监督学习的方法和无监督学习的方法，而有监督学习和无监督学习的方法在反欺诈的应用中有各自的优缺点。有监督学习的算法依赖于历史数据，而且这些历史数据是需要被标注的，也就是说每个历史交易需要被标注为正常交易或异常(欺诈)交易，有监督学习的算法会对这些有标注的历史数据进行学习，并把学习的结果保存在模型中，当有新的交易生成时，被训练好的有监督学习模型可以对新的交易进行预测，计算出新的交易属于异常交易的概率或可能性。有监督学习的方法存在的问题是，有监督学习对历史数据中的好样本和坏样本进行学习，发现其中的规律和模式，然后基于这些模式对新产生的交易进行分类，也...

【技术保护点】
1.一种基于有监督学习和无监督学习的反欺诈方法，其特征在于，具体步骤如下：/n步骤一：数据预处理；本专利技术输入的数据是数值型的数据，非数值型的数据需要被转成数值型的数据，之后所有的输入数据会被标准化，比如说可以用scikit-learn的StandardScaler对数据进行标准化；/n步骤二：数据转换；一般情况下输入数据的各个特征之间会有一定的相互关联关系，本专利技术需要使用主成分分析(PCA)的方法对输入数据进行转换，转换后的数据的各个列之间将不再有关联关系，转换后的数据仍记为X；/n步骤三：创建高斯混合模型；本专利技术的目标是对转换后的数据的每一列建立对应的高斯混合模型，高斯混合模型记...

【技术特征摘要】
1.一种基于有监督学习和无监督学习的反欺诈方法，其特征在于，具体步骤如下：
步骤一：数据预处理；本发明输入的数据是数值型的数据，非数值型的数据需要被转成数值型的数据，之后所有的输入数据会被标准化，比如说可以用scikit-learn的StandardScaler对数据进行标准化；
步骤二：数据转换；一般情况下输入数据的各个特征之间会有一定的相互关联关系，本发明需要使用主成分分析(PCA)的方法对输入数据进行转换，转换后的数据的各个列之间将不再有关联关系，转换后的数据仍记为X；
步骤三：创建高斯混合模型；本发明的目标是对转换后的数据的每一列建立对应的高斯混合模型，高斯混合模型记为：

其中xi为数据的第i行，为模型的参数，高斯混合模型包含k个成分，每个成分都是一个独立的高斯单变量分布，因为每个高斯混合模型只是针对数据集X中的一个列，所以它的成分只需要高斯单变量分布，即：

而且，每个变量ωj是第j个成分在混合模型中的权重，现在给每个数据点xi附加一个隐性变量zi，zi的取值范围为{1，2，...，k}，即zi＝2表示的是数据点xi是第2个成分生成的，zi＝j表示的是数据点xi是第j个成分生成的，那么对于任意的θ，有：

根据公式(2)及贝叶斯公式可得：

上式表示的是数据点xi是第j个成分生成的概率，定义γij＝p(zi＝j|xi，θ)；
步骤四：期望最大化算法；模型确定好之后，需要对模型的参数进行估计，这一步中将使用最大似然参数估计的方法，一般情况下都会使用对数似然函数：

根据全概率公式：

公式(3)可写为：

公式(4)中包含和的对数，对公式(4)求极大似然估计没有解析解，只能通过迭代的方法求解，这个步骤采用期望最大化(EM)算法来计算目标函数L(θ)的最大值，EM算法是一个迭代算法，主要包括E步(Expectation)和M步(Maximization)，经过推导(4)式可变为以下的求最大值问题：
θ(m+1)＝argmaxθE[logP(x，z|θ)x，θ(m)](5)
其中，θ(m)表示的是第m次迭代后得到的参数估计值，经过(5)式的计算将会得到第m+1次迭代后的参数值θ(m+1)，定义一个Q函数：
Q(θ|θ(m))＝E[logP(x，z|θ)|x，θ(m)]
那么第i个数据点xi的Q函数为：

上面的推导用到了γij的定义以及公式(2)，所以所有数据点的Q函数为：

推导出Q函数的公式后，即可以列出EM算法的主要步骤，如下：
①：初始化，在迭代还没开始的时候，把参数m的值设为0，参数m可以看作是迭代的次数，同时需要设置模型参数的初始值，这里θ(0)即表示第0次迭代后的模型参数值；
②：E步，根据当前模型的参数值θ(m)，需要计算成分j对数据xi的响应度

以上公式已在步骤三给出；
③：M步，根据Q函数的定义，在每次迭代中，需要去寻找参数θ的值使得Q函数的值最大化，即：

也就是说在M步中，需要求得函数Q(θ|θ(m))对参数θ的最大值，为了取得最优的μj，需要对μj求偏导数并令其为零，即：

把公式(6)带入上式并求解得到：

同样的要求得最优的σj，需要计算以下公式：

把公式(6)带入并求解得到：

计算最优的ωj的公式为：

M步结束后，将会得到迭代后新的参数值

④：循环，重复②和③，即E步和M步交替计算，注意在M步结束后参数m会自增1，即m＝m+1，当迭代收敛到一个预设的阈值时循环将结束；
当①到④执行结束后，高斯混合模型的所有参数即计算完成，也完成了对一个高斯混合模型的训练；
步骤五：有监督学习；有监督学习需要有标注的历史数据，假设历史数据为一个矩阵X，并且假设矩阵X中的每行已经被标注，正常交易记为0，异常交易记为1，标注的信息保存在X的其中一列中，现在把矩阵X根据标注信息拆为两个矩阵X0和X1，X0包含所有的正常交易，而X1包含所有的异常交易，假设矩阵X有n列，那么X0和X1也各有n列，现在把X0和X1分别拆为n个单列的矩阵，分别记为X01，X02，…，X0n和X11，X12，…，X1n，这样矩阵...

【专利技术属性】
技术研发人员：施铭铮，刘占辉，
申请(专利权)人：厦门铅笔头信息科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人