一种提升反欺诈模型泛化性的数据增强模型及方法技术

技术编号：40512787 阅读：8 留言：0更新日期：2024-03-01 13:28

本发明专利技术公开了一种提升反欺诈模型泛化性的数据增强模型及方法，基于孪生神经网络，灵活堆叠多种不同的数据增强方法，产生多样化和高质量的增强样本；不同增强样本的向量表示在嵌入空间中对齐，以达到互补效果，拉近增强样本和原始样本的距离，约束了数据增强施加的噪音，降低对增强样本质量的影响；可应用到源数据上扩充得到规模更大的多样化和高质量的增强样本集。可作用于该领域任务的数据预处理阶段，扩充存在规模较小、类别比例不平衡等问题的数据集，得到规模较大、高质量的增强数据集后再训练对应应用场景的欺诈模型，以此提高欺诈模型的泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术反欺诈模型泛化，尤其涉及一种提升反欺诈模型泛化性的数据增强模型及方法。

技术介绍

1、金融领域的反欺诈模型是利用机器学习和数据分析技术，旨在检测和预防金融欺诈行为的重要工具。这些模型通过分析大量历史交易数据和客户信息，寻找潜在的欺诈模式。反欺诈模型使用监督学习、异常检测等方法，帮助金融机构快速识别虚假、欺骗或非法交易。在不断演化的金融环境中，这些模型不仅有助于保护金融机构免受欺诈风险的影响，还有助于维护客户信任和金融系统的稳定性。然而，在金融领域的反欺诈模型面临着数据问题。首先，数据量可能不足，尤其是对于罕见的欺诈行为，难以提供足够的案例来训练模型。其次，数据通常存在不平衡，欺诈案例相对较少，这可能导致模型过于保守。

2、当前，有许多算法和技术均能提升反欺诈模型的泛化性。包括：特征，通过选择和构建有意义的特征，模型可以更好地捕捉欺诈行为的模式。2.模型选择，不同的机器学习算法和模型架构被用于反欺诈任务，如决策树、支持向量机、神经网络等，研究者们在不同模型之间进行比较和改进。3.迁移学习和半监督学习，通过利用来自其他领域或未标记数据来提高模型的性能，尤其在数据有限的情况下有用。4.实时监测和自动化决策，该技术对于快速响应欺诈行为至关重要。5.数据增强在金融反欺诈领域也发挥关键作用。但现有技术方案中，模型的性能和泛化能力仍较差，且增强样本的变换模式固定。

技术实现思路

1、本专利技术提出了一种提升反欺诈模型泛化性的数据增强模型及方法，进一步提升增强样本的多样性，使

2、第一方面，一种提升反欺诈模型泛化性的数据增强模型，基于孪生神经网络构建，包括并行的两个编码器models和一个编码器modelt；所述两个编码器models分别应用两种数据增强技术，分别对源数据集样本x进行变换；所述编码器modelt由大规模反欺诈数据集进行训练。

3、进一步，所述两种数据增强技术，分别对源数据集样本x进行变换后得到两个增强样本x1和xi，并将两个增强样本x1和xi分别输入两个编码器models中，得到增强样本h1和hi。

4、进一步，所述编码器modelt训练收敛后，对源数据集样本x进行变换得到处理样本h。

5、进一步，数据增强模型还设置有rmse损失函数，分别计算处理样本h与增强样本h1，处理样本h与增强样本hi的误差值之和。

6、进一步，所述两个编码器models权重共享，还设置有adam优化器对编码器models反向传播迭代训练。

7、另一方面，一种提升反欺诈模型泛化性的数据增强方法，基于一种提升反欺诈模型泛化性的数据增强模型实现，所述包括以下步骤：

8、任意输入样本特征x，首先通过任意一种数据增强技术做数据变化得到增强样本特征xi；将增强样本特征xi输入到一种多层感知机的神经网络，得到嵌入特征hi；

9、将原始样本特征x输入到models网络得到嵌入特征h；

10、将得到的嵌入特征hi通过均方根误差损失函数拟合h，通过优化器不断迭代训练modelt。

11、进一步，所述数据增强技术包括随机抖动、过采样、欠采样和smote数据增强。

12、本专利技术的有益效果：本专利技术提出了一种提升反欺诈模型泛化性的数据增强模型及方法，可以灵活堆叠多种不同的数据增强方法，产生多样化和高质量的增强样本；不同增强样本的向量表示在嵌入空间中对齐，以达到互补效果，拉近增强样本hi和原始样本h的距离，约束了数据增强施加的噪音，降低对增强样本质量的影响；可应用到源数据上扩充得到规模更大的多样化和高质量的增强样本集。可作用于该领域任务的数据预处理阶段，扩充存在规模较小、类别比例不平衡等问题的数据集，得到规模较大、高质量的增强数据集后再训练对应应用场景的欺诈模型，以此提高欺诈模型的泛化性。

本文档来自技高网...

【技术保护点】

1.一种提升反欺诈模型泛化性的数据增强模型，基于孪生神经网络构建，其特征在于，包括并行的两个编码器models和一个编码器modelt；所述两个编码器models分别应用两种数据增强技术，分别对源数据集样本X进行变换；所述编码器modelt由大规模反欺诈数据集进行训练。

2.根据权利要求1所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，所述两种数据增强技术，分别对源数据集样本X进行变换后得到两个增强样本X1和Xi，并将两个增强样本X1和Xi分别输入两个编码器models中，得到增强样本h1和hi。

3.根据权利要求2所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，所述编码器modelt训练收敛后，对源数据集样本X进行变换得到处理样本h。

4.根据权利要求3所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，数据增强模型还设置有RMSE损失函数，分别计算处理样本h与增强样本h1，处理样本h与增强样本hi的误差值之和。

5.根据权利要求4所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，所述两个编码器m

6.一种提升反欺诈模型泛化性的数据增强方法，基于权利要求1～5任意一项所述的一种提升反欺诈模型泛化性的数据增强模型实现，其特征在于，所述包括以下步骤：

7.根据权利要求6所述的一种提升反欺诈模型泛化性的数据增强方法，其特征在于，所述数据增强技术包括随机抖动、过采样、欠采样和SMOTE数据增强。

...

【技术特征摘要】

1.一种提升反欺诈模型泛化性的数据增强模型，基于孪生神经网络构建，其特征在于，包括并行的两个编码器models和一个编码器modelt；所述两个编码器models分别应用两种数据增强技术，分别对源数据集样本x进行变换；所述编码器modelt由大规模反欺诈数据集进行训练。

2.根据权利要求1所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，所述两种数据增强技术，分别对源数据集样本x进行变换后得到两个增强样本x1和xi，并将两个增强样本x1和xi分别输入两个编码器models中，得到增强样本h1和hi。

3.根据权利要求2所述的一种提升反欺诈模型泛化性的数据增强模型，其特征在于，所述编码器modelt训练收敛后，对源数据集样本x进行变换得到处理样本h。

<...

【专利技术属性】
技术研发人员：陈爽，
申请(专利权)人：中国农业银行股份有限公司重庆市分行，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人