一种反欺诈模型的训练方法及装置制造方法及图纸

技术编号：26260451 阅读：19 留言：0更新日期：2020-11-06 17:56

本发明专利技术公开了一种反欺诈模型的训练方法及装置，主要技术方案包括：将已标注交易样本集划分成N份样本，每份样本中分别包括正样本和/或负样本；使用当前获取的N份样本分别训练N个二分类模型；使用训练后的N个二分类模型分别对各未标注交易数据进行预测，得到各未标注交易数据在每一个训练后的二分类模型中的预测分值；基于各未标注交易数据在每一个训练后的二分类模型中的预测分值，从各未标注交易数据中选取至少一个未标注交易数据推送给标注终端；当训练后的N个二分类模型未收敛时，获取标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源，继续迭代训练N个二分类模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种反欺诈模型的训练方法及装置
本专利技术涉及计算机
，特别是涉及一种反欺诈模型的训练方法及装置。
技术介绍
互联网技术的发展，金融领域的交易行为越来越多的依赖于互联网进行，但是相伴而生的骗贷、违约、转账等欺诈性行为逐渐渗入到互联网中，为了保证交易行为的安全，对于金融机构而言，针对反欺诈识别监控成为抵御金融风险的重要工作之一。目前，通常通过机器学习算法而得的机器学习模型进行反欺诈监控已经是大势所趋。在训练机器学习模型时，通常需要有标注的样本来进行训练，样本的标注通常由人力完成。在反欺诈场景中，大量的交易数据都是正常的交易数据，只有极少部分的交易数据为欺诈行为的交易数据。若采用人力一个接一个对交易数据进行标注，将耗费大量的标注人力。而若为了减少人力标注投入，采用随机抽取交易数据进行标注的方式来标注，那么得到合法行为的样本较多，而得到欺诈行为的样本较少，这种样本分布将不利用模型学习，导致反欺诈识别的效果较差。
技术实现思路
有鉴于此，本专利技术提出了一种反欺诈模型的训练方法及装置，主要目的在于在减少训练反欺诈模型的人工标注成本的同时，提高反欺诈识别的效果。第一方面，本专利技术提供了一种反欺诈模型的训练方法，该方法包括：将已标注交易样本集划分成N份样本，其中，每份样本中分别包括至少一个正样本和/或至少一个负样本，所述正样本为已被标注为欺诈行为的交易数据，所述负样本为已被标注为合法行为的交易数据，N大于或等于2；使用当前获取的所述N份样本分别训练N个二分类模型，其中，...

【技术保护点】
1.一种反欺诈模型的训练方法，其特征在于，包括：/n将已标注交易样本集划分成N份样本，其中，每份样本中分别包括至少一个正样本和/或至少一个负样本，所述正样本为已被标注为欺诈行为的交易数据，所述负样本为已被标注为合法行为的交易数据，N大于或等于2；/n使用当前获取的所述N份样本分别训练N个二分类模型，其中，所述N个二分类模型组成反欺诈模型；/n使用训练后的N个二分类模型分别对各未标注交易数据进行预测，得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值；/n基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值，从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端，以供标注员标注；/n当所述训练后的N个二分类模型未收敛时，获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源，继续迭代训练N个二分类模型。/n

【技术特征摘要】
1.一种反欺诈模型的训练方法，其特征在于，包括：
将已标注交易样本集划分成N份样本，其中，每份样本中分别包括至少一个正样本和/或至少一个负样本，所述正样本为已被标注为欺诈行为的交易数据，所述负样本为已被标注为合法行为的交易数据，N大于或等于2；
使用当前获取的所述N份样本分别训练N个二分类模型，其中，所述N个二分类模型组成反欺诈模型；
使用训练后的N个二分类模型分别对各未标注交易数据进行预测，得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值；
基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值，从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端，以供标注员标注；
当所述训练后的N个二分类模型未收敛时，获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源，继续迭代训练N个二分类模型。

2.根据权利要求1所述的方法，其特征在于，将已标注交易数据集划分成N份样本，包括：
将所述已标注交易样本集所包括的样本切分为M个样本组，其中，每个所述样本组由至少一个样本组成，其中，M大于或等于N；
利用所述M个样本组生成所述N份样本，其中，每份样本中分别缺少M个样本组中的至少一个样本组，且不同份样本缺少的所述至少一个样本组中至少存在一个样本组不同。

3.根据权利要求2所述的方法，其特征在于，当M等于N时，每份样本分别缺少M个样本组中的一个样本组，且不同份样本缺少的样本组不同。

4.根据权利要求2所述的方法，其特征在于，将所述已标注交易样本集所包括的样本切分为M个样本组，包括：
按照所述已标注交易样本集中样本的存在顺序，将所述已标注交易样本集中的样本均分为M个样本组，其中，每个所述样本组包括的样本如下述公式所示：

其中，i表征样本组是第几个样本组；Di表征所述M个样本组中的第i个样本组；p表征所述已标注交易样本集中的样本总量；m表征所述M个样本组的总组数；d表征所述M个样本组中的第i个样本组中的样本；表征所述M个样本组中的第i个样本组中的各样本在所述已标注交易样本集中的存在顺序。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
当非首次训练所述N个二分类模型时，获取所述标注终端完成标注的已标注交易数据确定为样本，其中，所述已标注交易数据基于上一次训练的N个二分类模型向所述标注终端推送的未标注交易数据标注而得；

【专利技术属性】
技术研发人员：刘正夫，王铖骅，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人