【技术实现步骤摘要】
一种洗钱行为预测方法及装置
本专利技术涉及数据处理
,特别是涉及一种洗钱行为预测方法及装置。
技术介绍
随着互联网技术的发展,金融领域的交易行为越来越多的依赖于互联网进行,但是相伴而生的洗钱行为逐渐渗入到互联网中。洗钱,是指通过合法的活动或建设将违法获得的收入隐藏、伪装或投资的过程,为了维护社会公正和打击腐败等经济犯罪,需要在互联网中进行洗钱监控。互联网中的洗钱监控主要通过预设的反洗钱模型对互联网数据进行识别分析,从而识别出洗钱行为。传统的反洗钱方法通常存在如下两种:一种是,使用有监督反洗钱模型进行洗钱行为识别,此种模型需要大量已知标签的数据来训练有监督反洗钱模型,而大量已知标签的数据的获取成本非常大,其获取需要具有较高的业务素养的专业人员来执行,且一旦标签确定的不准确,训练出的有监督反洗钱模型的洗钱行为识别能力欠佳。另一种是,使用无监督反洗钱模型进行洗钱行为识别,此种模型训练时需要大量的特征,而这些特征选择需要具有较高的业务素养的专业人员来完整,且一旦特征选择不合理,训练出的无监督反洗钱模型的洗钱行为识别能力欠佳。
技术实现思路
有鉴于此,本专利技术提出了一种洗钱行为预测方法及装置,主要目的在于提高洗钱行为预测的准确率。第一方面,本专利技术提供了一种洗钱行为预测方法,该方法包括:获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;基于所述不带标签的训练样本 ...
【技术保护点】
1.一种洗钱行为预测方法,其特征在于,包括:/n获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;/n基于所述不带标签的训练样本生成孤立森林;/n基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;/n将删减后剩余的孤立树组成新的孤立森林;/n使用新的孤立森林进行洗钱预测。/n
【技术特征摘要】
1.一种洗钱行为预测方法,其特征在于,包括:
获取训练样本集,其中,所述训练样本集中包括带标签的训练样本和不带标签的训练样本,且每一个训练样本均具有其各自的特征,所述标签表征训练样本是否为洗钱行为数据;
基于所述不带标签的训练样本生成孤立森林;
基于所述带标签的训练样本对所述孤立森林中的孤立树进行删减;
将删减后剩余的孤立树组成新的孤立森林;
使用新的孤立森林进行洗钱预测。
2.根据权利要求1所述的方法,其特征在于,获取训练样本集,包括:
获取账户相关数据;
将一个预设周期内的一个账户定义为一个训练样本,基于账户相关数据为每个训练样本生成特征;
基于每个训练样本的特征,选取部分训练样本,并为所述部分训练样本标识标签,所述标签表征训练样本是否为洗钱行为数据;
组合带标签的训练样本和不带标签的训练样本,得到所述训练样本集。
3.根据权利要求1所述的方法,其特征在于,基于所述不带标签的训练样本生成孤立森林,包括:
确定孤立树的棵数;
对于每棵所述孤立树:从所述训练样本集中为该孤立树选取多个备选特征以及从所述训练样本集内选取多个不带标签的训练样本作为该孤立树的根节点;多次执行切割步骤,直至该孤立树符合预设条件;所述切割步骤包括:从所述多个备选特征中选取至少两个目标备选特征,根据所述至少两个目标备选特征生成针对当前节点的切割点,根据所述切割点对当前节点的训练样本进行切割;
组合各棵孤立树生成所述孤立森林。
4.根据权利要求3所述的方法,其特征在于,在所述至少两个目标备选特征中包括连续特征和/或离散特征时,基于至少两个目标备选特征生成所述切割点,包括:
为每个所述目标备选特征分别分配对应的权重和特征值,其中,在所述目标备选特征为连续特征时,所述连续特征的特征值为所述连续特征在当前节点的最大特征值和最小特征值之间的值;在所述目标备选特征为离散特征时,所述离散特征的特征值为所述离散特征在当前节点的所有离散值中的至少一个离散值;
基于各所述目标备选特征的权重和特征值,对各所述目标备选特征进行加权处理;
将加权处理的结果确定为所述切割点。
5.根据权利要求4所述的方法,其特征在于,根据所述切割点对当前节点的训练样本进行切割,包括:
对于当前节点的每一个所述训练样本:基于各所述目标备选特征的权重和每个所述目标备选特征在该训练样本中的特征值,对各所述目标备选特征进行加权处理;若加权处理结果小于所述切割点,将该训练样本分割到当前节点的第一组子节点;若加权处理结果不小于所述切割点,将该训练样本分割到当前节点的第二组子节点。
6.根据权...
【专利技术属性】
技术研发人员:秦一焜,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。