一种基于模型残差的金融反欺诈交易数据增强方法及装置制造方法及图纸

技术编号：40316361 阅读：7 留言：0更新日期：2024-02-07 20:58

本发明专利技术公开了一种基于模型残差的金融反欺诈交易数据增强方法及装置，该方法获取金融反欺诈交易数据作为训练数据，划分为白样本和黑样本并进行预处理后，使用xgboost进行训练，将黑样本数据进行全量扩增，将原始样本根据残差大小进行排序，仅保留白样本并选取残差值最大的部分白样本数据进行扩增，然后对未被选取的白样本进行随机采样，与扩增的白样本数据和未被选取的白样本数据进行掺杂，最后和扩增后的黑样本数据合并后，得到增强后的数据；对增强数据进行训练得到最终的模型，每过一定时间间隔，计算KL散度，若超过散度阈值，则重新进行数据增强。本发明专利技术采用的方法与未进行数据增强时相比，黑样本筛选精确率提升8％。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据增强领域，尤其涉及一种基于模型残差的金融反欺诈交易数据增强方法及装置。

技术介绍

1、由于金融反欺诈应用场景中欺诈账户标签获取困难，金融反欺诈交易数据通常都存正常账户数远超欺诈账户的数据极度不平衡问题，为数据建模带来了较大困难。

2、现有专利一种基于xgboost的互联网金融风控模型(cn110348722a)的技术方案如下所示：

3、获取样本：获取合适的模型样本，并根据网贷数据和催收数据确定模型样本的正负；获取样本特征维度；

4、清洗数据：对上述获取的样本和样本特征维度进行缺失值处理和异常值处理，并调配样本比例与权重；

5、数据集划分：对清洗数据后获得的样本进行划分，获取训练集、验证集以及跨时间验证样本；

6、特征构建：步骤一：划分数据结束后将样本中的每个变量进行woe转换；步骤二：连续变量，寻找最佳变化函数的方法；步骤三：每个变量进项哑变量编码；步骤四：多个连续变量进行加减乘除运算后，进行步骤一，步骤二和步骤三；步骤五：多个类型的变量进行交叉组合；步骤六：保留变量原值作为特征变量；特征筛选：计算特征变量与因变量的之间的相关系数，根据相关系数，保留相关系数系数较大的特征变量；

7、模型训练：以特征筛选后获得的特征变量为基础，采用xgboost算法构建xgboost模型，利用xgboost算法进行模型训练。

8、现有技术由于黑样本较少、白样本较多，现有的基于xgboost的反欺诈交易方法筛选黑样本的精确率较低，约为25％左右。无

技术实现思路

1、本专利技术目的在于针对现有技术的不足，提出一种基于模型残差的金融反欺诈交易数据增强方法及装置。

2、本专利技术的目的是通过以下技术方案来实现的：第一方面，本专利技术提供了一种基于模型残差的金融反欺诈交易数据增强方法，该方法包括以下步骤：

3、(1)原始数据的模型训练：获取金融反欺诈交易数据集x，表示账户对应的交易数据特征向量集合，获取数据集标签y，表示历史核查中对于账户是否发生金融欺诈行为的标记集合；以x,y作为训练数据，根据标签y划分白样本和黑样本并进行预处理后，使用xgboost进行训练，得到原始模型；

4、(2)数据增强：将账户的交易数据均匀划分若干批，记录第i批数据拟合的残差，将黑样本数据进行全量扩增，将原始样本根据残差大小进行排序，仅保留白样本并依据残差值从大到小选取部分白样本数据进行扩增，然后对未被选取的白样本进行随机采样，与扩增的白样本数据和未被选取的白样本数据进行掺杂，最后和扩增后的黑样本数据合并后，得到增强后的数据；

5、(3)增强数据的模型训练：从增强后的白样本集合中随机采样子集，和全量黑样本一起随机采样特征学习若干个基础xgboost模型，集成后获得最终的金融反欺诈识别模型；

6、(4)增强数据更新：每过一定时间间隔，计算kl散度，若超过散度阈值，返回步骤(2)重新进行数据增强。

7、进一步地，步骤(1)中，预处理为删除无效列、删除异常值和填充缺失值。

8、进一步地，步骤(2)中，将原始样本根据残差的绝对值从大到小进行排序，并仅保留白样本，剔除黑样本，排序后的白样本选取残差值前5％的部分白样本数据。

9、进一步地，步骤(4)中，设置时间间隔t，kl散度阈值d*，上一次的白样本分布为q，当前白样本分布为p，每过时间间隔t，使用kl散度计算：

10、

11、其中，i表示第i个基础模型，若dkl(p||q)>d*，则回到步骤(2)重新进行数据增强。

12、第二方面，本专利技术还提供了一种基于模型残差的金融反欺诈交易数据增强装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现所述的一种基于模型残差的金融反欺诈交易数据增强方法。

13、第三方面，本专利技术还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现所述的一种基于模型残差的金融反欺诈交易数据增强方法。

14、本专利技术的有益效果：本专利技术采用的方法与未进行数据增强时相比，黑样本筛选精确率提升8％，相较于通过对白样本负采样对黑样本过采样的样本不平衡解决方法本专利技术提出的建模方法性能提升效果更加稳定，更能够适应发欺诈场景多变的数据情况。

本文档来自技高网...

【技术保护点】

1.一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，步骤(1)中，预处理为删除无效列、删除异常值和填充缺失值。

3.根据权利要求1所述的一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，步骤(2)中，将原始样本根据残差的绝对值从大到小进行排序，并仅保留白样本，剔除黑样本，排序后的白样本选取残差值前5％的部分白样本数据。

4.根据权利要求1所述的一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，步骤(4)中，设置时间间隔t，KL散度阈值D*，上一次的白样本分布为Q，当前白样本分布为P，每过时间间隔t，使用KL散度计算：

5.一种基于模型残差的金融反欺诈交易数据增强装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-3中任一项所述的一种基于模型残差的金融反欺诈交易数据增强方法。

6.一种计算机可读存储介质，其上存储有程序，

...

【技术特征摘要】

1.一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于模型残差的金融反欺诈交易数据增强方法，其特征在于，步骤(1)中，预处理为删除无效列、删除异常值和填充缺失值。

4.根据权利要求1所述的一种基于模型残差的金融反欺诈交易数据增强方法，其特征...

【专利技术属性】
技术研发人员：陈伟，王雷，黄滔，高杨，李文龙，
申请(专利权)人：浙江邦盛科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人