一种反欺诈模型的训练方法及装置制造方法及图纸

技术编号:26260451 阅读:19 留言:0更新日期:2020-11-06 17:56
本发明专利技术公开了一种反欺诈模型的训练方法及装置,主要技术方案包括:将已标注交易样本集划分成N份样本,每份样本中分别包括正样本和/或负样本;使用当前获取的N份样本分别训练N个二分类模型;使用训练后的N个二分类模型分别对各未标注交易数据进行预测,得到各未标注交易数据在每一个训练后的二分类模型中的预测分值;基于各未标注交易数据在每一个训练后的二分类模型中的预测分值,从各未标注交易数据中选取至少一个未标注交易数据推送给标注终端;当训练后的N个二分类模型未收敛时,获取标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源,继续迭代训练N个二分类模型。

【技术实现步骤摘要】
一种反欺诈模型的训练方法及装置
本专利技术涉及计算机
,特别是涉及一种反欺诈模型的训练方法及装置。
技术介绍
互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的骗贷、违约、转账等欺诈性行为逐渐渗入到互联网中,为了保证交易行为的安全,对于金融机构而言,针对反欺诈识别监控成为抵御金融风险的重要工作之一。目前,通常通过机器学习算法而得的机器学习模型进行反欺诈监控已经是大势所趋。在训练机器学习模型时,通常需要有标注的样本来进行训练,样本的标注通常由人力完成。在反欺诈场景中,大量的交易数据都是正常的交易数据,只有极少部分的交易数据为欺诈行为的交易数据。若采用人力一个接一个对交易数据进行标注,将耗费大量的标注人力。而若为了减少人力标注投入,采用随机抽取交易数据进行标注的方式来标注,那么得到合法行为的样本较多,而得到欺诈行为的样本较少,这种样本分布将不利用模型学习,导致反欺诈识别的效果较差。
技术实现思路
有鉴于此,本专利技术提出了一种反欺诈模型的训练方法及装置,主要目的在于在减少训练反欺诈模型的人工标注成本的同时,提高反欺诈识别的效果。第一方面,本专利技术提供了一种反欺诈模型的训练方法,该方法包括:将已标注交易样本集划分成N份样本,其中,每份样本中分别包括至少一个正样本和/或至少一个负样本,所述正样本为已被标注为欺诈行为的交易数据,所述负样本为已被标注为合法行为的交易数据,N大于或等于2;使用当前获取的所述N份样本分别训练N个二分类模型,其中,所述N个二分类模型组成反欺诈模型;使用训练后的N个二分类模型分别对各未标注交易数据进行预测,得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值;基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值,从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端,以供标注员标注;当所述训练后的N个二分类模型未收敛时,获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源,继续迭代训练N个二分类模型。第二方面,本专利技术提供了一种反欺诈模型的训练装置,该装置包括:划分单元,用于将已标注交易样本集划分成N份样本,其中,每份样本中分别包括至少一个正样本和/或至少一个负样本,所述正样本为已被标注为欺诈行为的交易数据,所述负样本为已被标注为合法行为的交易数据,N大于或等于2;训练单元,用于使用当前获取的所述N份样本分别训练N个二分类模型,其中,所述N个二分类模型组成反欺诈模型;预测单元,用于使用训练后的N个二分类模型分别对各未标注交易数据进行预测,得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值;推送单元,用于基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值,从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端,以供标注员标注;第一确定单元,用于当所述训练后的N个二分类模型未收敛时,获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源,继续迭代训练N个二分类模型。第三方面,本专利技术提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的反欺诈模型的训练方法。第四方面,本专利技术提供了一种存储管理设备,所述存储管理设备包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面所述的反欺诈模型的训练方法。借由上述技术方案,本专利技术提供的反欺诈模型的训练方法及装置,将已标注交易样本集划分成两份及以上数量份数的样本,使用各份样本分别训练反欺诈模型中的一个二分类模型。使用训练后的各二分类模型分别对各未标注交易数据进行预测,然后根据各未标注交易数据在每一个训练后的二分类模型中的预测分值,选取有较高标注价值的未标注交易数据推送给标注终端以标注员仅对标注价值较高的样本进行标注,从而提高标注员标注的人工标注效率。另外,为了优化反欺诈模型的欺诈识别效果,则需要获取标注终端完成标注的已标注交易数据集,以让反欺诈模型能够不断的学习新标注的样本,从而使反欺诈模型的欺诈识别效果能够不断提升,从而更好的对交易数据中的欺诈行为进行准确识别。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术一个实施例提供的一种反欺诈模型的训练方法的流程图;图2示出了本专利技术另一个实施例提供的一种反欺诈模型的训练方法的流程图;图3示出了本专利技术一个实施例提供的一种反欺诈模型的训练装置的结构示意图;图4示出了本专利技术另一个实施例提供的一种反欺诈模型的训练装置的结构示意图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例提供了一种反欺诈模型的训练方法,该方法主要包括:101、将已标注交易样本集划分成N份样本,其中,每份样本中分别包括至少一个正样本和/或至少一个负样本,所述正样本为已被标注为欺诈行为的交易数据,所述负样本为已被标注为合法行为的交易数据,N大于或等于2。在实际应用中,欺诈行为往往隐藏在金融领域的交易过程中,故金融领域的在互联网等媒介中的交易行为所产生的数据中包括有大量的欺诈行为相关的特征,而这些特征可以作为反欺诈模型的训练基础,因此,可采用经过标注员等具有标注经验的标注专家标注过的已标注交易数据作为样本来训练反欺诈模型。在训练反欺诈模型时,需要获取已标注交易样本集,其中,已标注交易样本集中的一个样本为一个已标注交易数据。该已标注交易样本集中包括至少一个正样本和至少一个负样本,其中,正样本为已被标注为欺诈行为的交易数据,而负样本为已被标注为合法行为的交易数据。需要说明的是,为了保证基于已标注交易样本集训练而得的反欺诈模型能够在大量的未标注交易数据,识别出欺诈行为的交易数据,则已标注交易样本集中的负样本数量和正样本数量之间的比值应为一个特定比值,该比值本实施例中不做具体限定,可以基于具体的业务需求设定。示例性的,该负样本数量大于正样本数量,该比值为大于1的数值。已标注交易样本集的来源与反欺诈模型的迭代训练次数本文档来自技高网...

【技术保护点】
1.一种反欺诈模型的训练方法,其特征在于,包括:/n将已标注交易样本集划分成N份样本,其中,每份样本中分别包括至少一个正样本和/或至少一个负样本,所述正样本为已被标注为欺诈行为的交易数据,所述负样本为已被标注为合法行为的交易数据,N大于或等于2;/n使用当前获取的所述N份样本分别训练N个二分类模型,其中,所述N个二分类模型组成反欺诈模型;/n使用训练后的N个二分类模型分别对各未标注交易数据进行预测,得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值;/n基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值,从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端,以供标注员标注;/n当所述训练后的N个二分类模型未收敛时,获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源,继续迭代训练N个二分类模型。/n

【技术特征摘要】
1.一种反欺诈模型的训练方法,其特征在于,包括:
将已标注交易样本集划分成N份样本,其中,每份样本中分别包括至少一个正样本和/或至少一个负样本,所述正样本为已被标注为欺诈行为的交易数据,所述负样本为已被标注为合法行为的交易数据,N大于或等于2;
使用当前获取的所述N份样本分别训练N个二分类模型,其中,所述N个二分类模型组成反欺诈模型;
使用训练后的N个二分类模型分别对各未标注交易数据进行预测,得到各所述未标注交易数据在每一个训练后的二分类模型中的预测分值;
基于各所述未标注交易数据在每一个训练后的二分类模型中的预测分值,从各所述未标注交易数据中选取至少一个未标注交易数据推送给标注终端,以供标注员标注;
当所述训练后的N个二分类模型未收敛时,获取所述标注终端完成标注的已标注交易数据集确定为下一次训练N个二分类模型所需的N份样本的样本来源,继续迭代训练N个二分类模型。


2.根据权利要求1所述的方法,其特征在于,将已标注交易数据集划分成N份样本,包括:
将所述已标注交易样本集所包括的样本切分为M个样本组,其中,每个所述样本组由至少一个样本组成,其中,M大于或等于N;
利用所述M个样本组生成所述N份样本,其中,每份样本中分别缺少M个样本组中的至少一个样本组,且不同份样本缺少的所述至少一个样本组中至少存在一个样本组不同。


3.根据权利要求2所述的方法,其特征在于,当M等于N时,每份样本分别缺少M个样本组中的一个样本组,且不同份样本缺少的样本组不同。


4.根据权利要求2所述的方法,其特征在于,将所述已标注交易样本集所包括的样本切分为M个样本组,包括:
按照所述已标注交易样本集中样本的存在顺序,将所述已标注交易样本集中的样本均分为M个样本组,其中,每个所述样本组包括的样本如下述公式所示:



其中,i表征样本组是第几个样本组;Di表征所述M个样本组中的第i个样本组;p表征所述已标注交易样本集中的样本总量;m表征所述M个样本组的总组数;d表征所述M个样本组中的第i个样本组中的样本;表征所述M个样本组中的第i个样本组中的各样本在所述已标注交易样本集中的存在顺序。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当非首次训练所述N个二分类模型时,获取所述标注终端完成标注的已标注交易数据确定为样本,其中,所述已标注交易数据基于上一次训练的N个二分类模型向所述标注终端推送的未标注交易数据标注而得;

【专利技术属性】
技术研发人员:刘正夫王铖骅
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1