一种基于类明确表示的一分类对抗性诈骗检测方法技术

技术编号:32904778 阅读:15 留言:0更新日期:2022-04-07 11:55
本发明专利技术公开了一种基于类明确表示的一分类对抗性诈骗检测方法,采用改进的自编码器和改进的生成对抗网络,包括四个阶段:第一阶段:基于正常行为数据提取初步特征,利用改进后的自编码器提取其数据特征;第二阶段:修改原始生成对抗网络的目标函数得到改进的生成对抗网络,利用改进的生成对抗网络生成伪异常行为数据;第三阶段:将正常用户行为数据和伪异常行为数据输入改进的自编码器中一同训练,用训练完成后的编码器对正常行为数据提取最终特征;第四阶段:用最终提取好的正常行为数据特征对改进的生成对抗网络进行训练,训练完成后得到的判别器作为诈骗检测器对诈骗进行检测。本发明专利技术的方法在诈骗检测的准确率和稳定性方面都有显著提高。面都有显著提高。面都有显著提高。

【技术实现步骤摘要】
一种基于类明确表示的一分类对抗性诈骗检测方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于类明确表示的一分类对抗性诈骗检测方法。

技术介绍

[0002]诈骗行为广泛存在于我们的生活中,在网络、电信、保险(健康、汽车等)索赔、银行(纳税申报单索赔、信用卡交易等)等方面的诈骗比比皆是,诈骗检测是目前亟待解决的重大问题。
[0003]在技术上,诈骗检测主要有以下技术问题:
[0004](1)诈骗行为一般具有适应性,类型多变。一些传统方法基于专家手动提取的鲁棒特征进行检测,一旦诈骗类型发生变化,之前的方法就不再适用。
[0005](2)诈骗行为数据量和数据维度大。随着数据量和数据维度的增大,传统方法的计算量指数级增长,计算成本过大。
[0006](3)诈骗行为的数据不易获取。很多新兴的机器学习方法对处理大数据量非常有优势,但机器学习方法需要大量数据支撑才能取得好的效果,而诈骗行为首先在整个社会行为中属于少数,诈骗行为中很大一部分也没有数据记录,因此行为数据的多样性和不平衡性也给诈骗检测带来了挑战。
[0007]许多传统机器学习方法,如一类最邻近法(OCNN)、一类高斯过程 (OCGP)和一类支持向量机(OCSVM)等已经可以成功地对诈骗进行检测,但这些传统方法一般是基于专家手动提取的鲁棒特征,一旦诈骗类型发生变化,之前的方法就不再适用,另外,能够获取到的诈骗者行为数据也比正常用户的行为数据少得多,行为数据的多样性和不平衡性,都使得传统机器学习方法不再适用,而无监督或半监督的深度学习方法因其能更好地克服上述问题更多地被应用在诈骗检测中。
[0008]一分类对抗性网络(OCAN)是基于一类训练的对抗性诈骗检测网络,其训练主要包括两个阶段,第一阶段是特征学习,LSTM

AE是自编码器的一个变体,它与常规自编码器不同的是输入输出都为序列,OCAN用 LSTM

AE对用户的行为数据进行训练,训练完成后通过编码器就可以计算得到用户数据的定长特征表示;第二阶段是对complementary GAN做训练, complementary GAN是对原始生成对抗网络中的生成器和检测器目标函数做修改得到。它定义了一个理想的伪异常数据分布,生成器损失函数改为生成数据分布与理想分布的KL散度,通过训练,生成分布就可以逐渐拟合伪异常数据的理想分布;而判别器做了略微修改,在原始判别器损失函数的基础上多加了一项,使得判别器更倾向于更准确地检测出正常用户,当训练完成后,判别器就可以作为检测器去辨别正常用户和恶意用户。
[0009]OCAN用自动编码器对维基百科中正常用户的行为记录数据进行特征提取,使其变得更加易于处理。Fence GAN同样是将判别器作为异常检测器,但其直接修改了生成器的目标函数使生成样本分布于正常数据的边缘区域,即判别器判定值为0.5的区域,并且加入了防止生成伪异常数据聚集的损失函数,也取得了较好的效果,但随着数据维度的增加,可以
看出 Fence GAN中的伪异常数据越来越难以将正常数据很好地“围住”。
[0010]OCAN加了自动编码器提取数据的鲁棒特征,这使得其可以更好的处理高维和不定长的数据。我们看到虽然OCAN用生成网络解决了负样本缺少的问题,对样本进行了特征提取提高了处理数据的能力,但一个好的特征提取器应该以最大化类间距离和最小化类内距离为目标,所以仅通过正常行为数据训练所得到的特征提取器会忽略掉最大化类间距离的目标,造成偏差。此时的特征提取仅关注于“复原”,而忽略了检测时所关注的正常行为数据与异常行为数据间的“差别”,这往往决定着在此基础上检测效果所能达到的上限。

技术实现思路

[0011]本专利技术针对上述问题,提出一种基于类明确表示的一分类对抗性诈骗检测方法,对自动编码器和生成对抗网络进行了改进,在中间层加入了减小类内间距、增大类间间距的损失函数,使特征提取更加服务于诈骗检测的目标,同时通过两次的特征提取,使得自动编码器和生成对抗网络两个部分相结合,相辅相成,层层递进,自我生成,自我学习,提高后续检测器检测准确率和稳定性。
[0012]为了实现上述目的,本专利技术提供如下技术方案:
[0013]一种基于类明确表示的一分类对抗性诈骗检测方法,采用改进的自编码器和改进的生成对抗网络,并包括四个阶段:
[0014]第一阶段:基于正常行为数据做初步的特征提取,利用改进后的自编码器提取其数据鲁棒特征;
[0015]第二阶段:修改原始生成对抗网络中生成器和判别器的目标函数得到改进的生成对抗网络,利用改进的生成对抗网络生成伪异常行为数据;
[0016]第三阶段:将正常用户行为数据和伪异常行为数据输入改进的自编码器中一同训练,用训练完成后的编码器对正常行为数据做最终的特征提取;
[0017]第四阶段:用最终提取好的正常行为数据特征对改进的生成对抗网络进行训练,训练完成后得到的判别器作为诈骗检测器对诈骗进行检测。
[0018]所述的改进的自编码器是在自编码器的中间层加入中心损失函数,使得自编码器在编码时满足最小化类内距离和最大化类间距离;所述的改进的生成对抗网络中,生成器的损失函数为生成分布与定义的诈骗数据的理想分布的KL散度。
[0019]进一步地,第一阶段的具体过程为:用正常数据对自动编码器进行训练,并在其中间层加入中心损失,最小化类内距离;训练完成后通过编码器En1对原始正常数据进行编码得到其特征,并保留解码器De1模型权重。
[0020]进一步地,第二阶段的具体过程为:将原始生成对抗网络中生成器的损失函数修改为生成分布与定义的诈骗数据的理想分布的KL散度,并训练判别器;训练完成后将生成器生成的伪诈骗数据特征通过解码器De1从潜在特征空间还原到原始空间。
[0021]进一步地,第三阶段的具体过程为:在自动编码器的中间层加入最小化类内距离、最大化类间距离的损失函数,将伪诈骗行为数据作为参考数据和正常行为数据一同对自动编码器进行训练,并通过训练好的编码器En2得到正常行为数据的特征表示。
[0022]进一步地,第四阶段的具体过程为:用第三阶段提取正常行为数据的特征对改进的生成对抗网络进行训练,生成器生成的伪异常数据会逐渐向正常数据聚集,直到分布于
其边缘,判别器不断训练提高分辨正常数据和生成的伪异常数据的能力,训练完成后得到的判别器作为诈骗检测器对诈骗进行检测。
[0023]进一步地,改进的自编码器的损失函数如公式(8)所示;
[0024]L
AE
=l
MSE
+l
latent
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0025]其中,l
MSE
为原编码器中间层的损失函数,如公式(3)所示;l
latent
为改进的自编码器的的中间层加入新的目标函数的损失函数,如公式(5)所示;
[0026][0027][0028]其中,λ1、λ2和λ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,采用改进的自编码器和改进的生成对抗网络,并包括四个阶段:第一阶段:基于正常行为数据做初步的特征提取,利用改进后的自编码器提取其数据鲁棒特征;第二阶段:修改原始生成对抗网络中生成器和判别器的目标函数得到改进的生成对抗网络,利用改进的生成对抗网络生成伪异常行为数据;第三阶段:将正常用户行为数据和伪异常行为数据输入改进的自编码器中一同训练,用训练完成后的编码器对正常行为数据做最终的特征提取;第四阶段:用最终提取好的正常行为数据特征对改进的生成对抗网络进行训练,训练完成后得到的判别器作为诈骗检测器对诈骗进行检测。所述的改进的自编码器是在自编码器的中间层加入中心损失函数,使得自编码器在编码时满足最小化类内距离和最大化类间距离;所述的改进的生成对抗网络中,生成器的损失函数为生成分布与定义的诈骗数据的理想分布的KL散度。2.根据权利要求1所述的基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,第一阶段的具体过程为:用正常数据对自动编码器进行训练,并在其中间层加入中心损失,最小化类内距离;训练完成后通过编码器En1对原始正常数据进行编码得到其特征,并保留解码器De1模型权重。3.根据权利要求1所述的基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,第二阶段的具体过程为:将原始生成对抗网络中生成器的损失函数修改为生成分布与定义的诈骗数据的理想分布的KL散度,并训练判别器;训练完成后将生成器生成的伪诈骗数据特征通过解码器De1从潜在特征空间还原到原始空间。4.根据权利要求1所述的基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,第三阶段的具体过程为:在自动编码器的中间层加入最小化类内距离、最大化类间距离的损失函数,将伪诈骗行为数据作为参考数据和正常行为数据一同对自动编码器进行训练,并通过训练好的编码器En2得到正常行为数据的特征表示。5.根据权利要求1所述的基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,第四阶段的具体过程为:用第三阶段提取正常行为数据的特征对改进的生成对抗网络进行训练,生成器生成的伪异常数据会逐渐向正常数据聚集,直到分布于其边缘,判别器不断训练提高分辨正常数据和生成的伪异常数据的能力,训练完成后得到的判别器作为诈骗检测器对诈骗进行检测。6.根据权利要求1所述的基于类明确表示的一分类对抗性诈骗检测方法,其特征在于,改进的自编码器的损失函数如公式(8)所示;L
AE
=l
MSE
+l
latent
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,l
...

【专利技术属性】
技术研发人员:彭海朋赵洁李丽香任叶青赵珊珊李思睿暴爽范琳萱孟寅
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1