一种洗钱行为预测方法及装置制造方法及图纸

技术编号:24171489 阅读:77 留言:0更新日期:2020-05-16 03:06
本发明专利技术公开了一种洗钱行为预测方法及装置,涉及数据处理技术领域,主要目的在于提高洗钱行为预测的准确率;主要技术方案包括:获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;基于所述不带标签的训练样本生成孤立森林;基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;将删减后剩余的孤立树组成新的孤立森林;使用新的孤立森林进行洗钱预测。

A prediction method and device of money laundering

【技术实现步骤摘要】
一种洗钱行为预测方法及装置
本专利技术涉及数据处理
,特别是涉及一种洗钱行为预测方法及装置。
技术介绍
随着互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的洗钱行为逐渐渗入到互联网中。洗钱,是指通过合法的活动或建设将违法获得的收入隐藏、伪装或投资的过程,为了维护社会公正和打击腐败等经济犯罪,需要在互联网中进行洗钱监控。互联网中的洗钱监控主要通过预设的反洗钱模型对互联网数据进行识别分析,从而识别出洗钱行为。传统的反洗钱方法通常存在如下两种:一种是,使用有监督反洗钱模型进行洗钱行为识别,此种模型需要大量已知标签的数据来训练有监督反洗钱模型,而大量已知标签的数据的获取成本非常大,其获取需要具有较高的业务素养的专业人员来执行,且一旦标签确定的不准确,训练出的有监督反洗钱模型的洗钱行为识别能力欠佳。另一种是,使用无监督反洗钱模型进行洗钱行为识别,此种模型训练时需要大量的特征,而这些特征选择需要具有较高的业务素养的专业人员来完整,且一旦特征选择不合理,训练出的无监督反洗钱模型的洗钱行为识别能力欠佳。
技术实现思路
有鉴于此,本专利技术提出了一种洗钱行为预测方法及装置,主要目的在于提高洗钱行为预测的准确率。第一方面,本专利技术提供了一种洗钱行为预测方法,该方法包括:获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;基于所述不带标签的训练样本生成孤立森林;基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;将删减后剩余的孤立树组成新的孤立森林;使用新的孤立森林进行洗钱预测。第二方面,本专利技术提供了一种洗钱行为预测装置,该装置包括:获取单元,用于获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;生成单元,用于基于所述不带标签的训练样本生成孤立森林;删减单元,用于基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;组成单元,用于将删减后剩余的孤立树组成新的孤立森林;预测单元,用于使用新的孤立森林进行洗钱预测。第三方面,本专利技术提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中所述的洗钱行为预测方法。第四方面,本专利技术提供了一种存储管理设备,所述存储管理设备包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中所述的洗钱行为预测方法。借由上述技术方案,本专利技术提供的洗钱行为预测方法及装置,首先采用训练样本集中不带标签的训练样本生成孤立森林,然后采用训练样本集中带标签的训练样本对孤立森林中的孤立树进行删减,将删减后剩余的孤立树组成新的孤立森林。最后使用新的孤立森林进行洗钱预测。可见,本专利技术提供的方案中在使用不带标签的训练样本得到孤立森林之后,利用少量的带有标签的训练样本对孤立森林进行删减,充分利用了有标签的训练样本剔除了孤立森林中洗钱行为识别能力较差的孤立树,得到洗钱行为识别能力较好的孤立森林,从而在使用孤立森林进行洗钱行为预测时,能够提高洗钱行为预测的准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术一个实施例提供的一种洗钱行为预测方法的流程图;图2示出了本专利技术另一个实施例提供的一种洗钱行为预测方法的流程图;图3示出了本专利技术一个实施例提供的一种洗钱行为预测装置的结构示意图;图4示出了本专利技术另一个实施例提供的一种洗钱行为预测装置的结构示意图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例提供了一种洗钱行为预测方法,该方法主要包括:101、获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据。在实际应用中,洗钱行为往往隐藏在金融领域的交易过程中,故金融领域的交易过程中的交易行为所产生的数据中包括有大量洗钱行为相关的特征,因此需要基于交易过程中所产生的数据获取训练孤立森林所需的训练样本集。需要说明的是,为了使得基于训练样本集训练而得的孤立森林具有较强的洗钱行为识别能力,则该训练样本集中包括带标签的训练样本和不带标签的训练样本。带有标签的训练样本中的标签用于标识该训练样本是否为洗钱行为的数据。示例性的,标签为0的训练样本不是洗钱行为的数据,而标签为1的训练样本为洗钱行为的数据。不带标签的训练样本用于训练初步的孤立森林,而带有标签的训练样本作为测试数据对不带标签的训练样本训练而得的孤立森林进行测试,并基于测试结果对孤立森林进行裁剪,从而去除掉孤立森林中洗钱行为识别效果不佳的孤立树,留存孤立森林中洗钱行为识别效果较佳的孤立树。下面对获取训练样本集的获取进行说明,获取训练样本集的过程至少包括:获取账户相关数据;将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,标签表征训练样本是否为洗钱数据;组合带标签的训练样本和不带标签的训练样本,得到训练样本集。具体的,账户相关数据包括有交易行为数据和账户基本信息数据等数据,其可以从银行营业数据或互联网金融交易平台的交易数据中获取。将一个预设周期内的一个账户定义为一个训练样本,该预设周期依据业务要求确定,本实施例中不做具体限定。示例性的,该预设周期为一个月或一个星期。比如,将1月的账户1的账户相关数据定义为训练样本1、将2月的账户1的账户相关数据定为训练样本2以及将2月的账户2的账户相关数据定义为训练样本3。具体的,在定义出各训练样本后,为每一个训练样本生成特征。根据训练样本对应的账户在预设周期内的各种交易行为数据和账户基本信息数据生成基础特征,并将基于特征进行特征的组合衍生得到衍生特征,而这些基础特征和衍生特征构成了训练样本的特征。基础特征包括本文档来自技高网...

【技术保护点】
1.一种洗钱行为预测方法,其特征在于,包括:/n获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;/n基于所述不带标签的训练样本生成孤立森林;/n基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;/n将删减后剩余的孤立树组成新的孤立森林;/n使用新的孤立森林进行洗钱预测。/n

【技术特征摘要】
1.一种洗钱行为预测方法,其特征在于,包括:
获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
基于所述不带标签的训练样本生成孤立森林;
基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
将删减后剩余的孤立树组成新的孤立森林;
使用新的孤立森林进行洗钱预测。


2.根据权利要求1所述的方法,其特征在于,获取训练样本集,包括:
获取账户相关数据;
将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。


3.根据权利要求1所述的方法,其特征在于,基于所述不带标签的训练样本生成孤立森林,包括:
确定孤立树的棵数;
对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
组合各棵孤立树生成所述孤立森林。


4.根据权利要求3所述的方法,其特征在于,在所述至少两个目标备选特征中包括连续特征和/或离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
将加权处理的结果确定为所述切割点。


5.根据权利要求4所述的方法,其特征在于,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。


6.根据权...

【专利技术属性】
技术研发人员:秦一焜
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1