一种金融信贷诈骗识别方法、系统及电子设备技术方案

技术编号:22468722 阅读:77 留言:0更新日期:2019-11-06 12:09
本申请涉及一种金融信贷诈骗识别方法、系统及电子设备。所述金融信贷诈骗识别方法包括:步骤a:接收最新用户行为数据,对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;步骤b:利用所述重采样数据学习新的子模型;步骤c:将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正,得到新的诈骗识别总模型;步骤d:通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本,对所述最新用户行为数据进行诈骗识别。本申请利用重采样算法和新的集成流程,可以减缓正负样本数量不均衡带来的影响,同时以集成小量新模型的方式快速修正总模型,可以自适应系统应用环境的概念迁移。

A method, system and electronic equipment of financial credit fraud identification

【技术实现步骤摘要】
一种金融信贷诈骗识别方法、系统及电子设备
本申请属于金融反诈骗
,特别涉及一种金融信贷诈骗识别方法、系统及电子设备。
技术介绍
传统金融信贷诈骗识别主要依靠数理统计结合人工识别,消耗大量人力资源的同时也造成了系统泛化能力差的问题。随着互联网技术的普及,传统金融领域迎来了创新,逐渐发展为金融科技,而金融信贷诈骗识别系统是互联网金融科技的一个重要研究领域,其既继承了互联网技术中的高效率性,又具备传统金融业务的复杂性。金融信贷诈骗系统利用用户使用产品时留下的数据和记录,通过其核心算法,为金融平台计算出每一位用户的风险值,从而降低风险,提高利润。而金融信贷诈骗系统最为核心的部分为其核心算法,现有的核心算法可以分为两类:一、基于规则的金融信贷诈骗识别方法作为传统金融信贷诈骗识别方法的代表,基于规则的金融信贷诈骗识别模型是目前应用最为广泛的模型。该模型通过领域专家按照当前业务定制一系列的规则,生成规则列表。当一个用户需要进行信用风险评估的时候,按照此规则列表进行匹配,最后根据规则的匹配情况来最终确定用户的诈骗风险评级。该方法存在的缺点在于:a):无法解决数据特征数量过大的情况;基于规则的方法需要专家对不同特及其组合进行评估,最后再总结出规则,而对于大规模数量的特征,一一枚举每一种情况是不可能的。b):无法解决概念漂移问题;由于规则是不能够动态该改变的,对于日新月异的应用环境,静态的规则的准确性会越来越差。二、基于机器学习的信贷诈骗识别方法随着近期机器学习技术的兴起,大部分新模型采用机器学习的方法来建立模型。有别于基于规则的模型,基于机器学习的模型不需要借助过多领域专家的经验,模型能够有效地对给予模型本身的特征进行筛选,作用大的特征会占据模型较大的影响因子。基于机器学习的信贷诈骗识别方法存在的缺点在于:a):无法解决概念漂移问题;目前大部分基于机器学习的诈骗识别模型大多数都是静态的,只保留有一次学习过程,对于日新月异的应用环境,静态的模型会逐渐退化。b):容易受到数据种类不均衡的影响;正常情况下,正常用户的数量远大于诈骗用户的数量,而目前大多数采用的机器学习模型为监督学习模型,其容易受到这种样本种类不均匀性的影响,从而影响模型的准确性。目前,由于我国移动互联网金融人口规模巨大,其授信系统也同时伴随着特殊性,复杂性,使得金融诈骗识别面临不少问题。我国的机器学习在金融信贷诈骗领域的应用还处于起步阶段,面临了很多亟待解决的实际问题,总结起来包含以下四个方面:1、概念迁移概念迁移表示模型随时间变化的现象。概念迁移在金融欺骗识别系统中被定义为正常用户或欺骗者连续不断地改变自己的行为。如果系统错误地认为这种行为可疑并冻结用户账号,将导致用户体验率下低,造成不可估量的间接经济损失。2、正负样本比例严重偏差在金融诈骗识别问题中,诈骗样本(正样本)相对于正常消费样本(负样本)的比例是非常小的,通常低于0.05%,这使得在监督学习过程中,分类模型由于被大量的负样本所“遮蔽”,从而很难发现正样本的存在模式。3、数据特征繁多基于互联网金融的数据特征繁多,冗余的数据特征使得系统效率低下,甚至容易引起过拟合。基于主要的数据特征训练的分类器能够挖掘用户的消费习惯,对于互联网金融来说,平均有20多项数据特征,有的甚至多达100+项,传统地利用人工的方式来筛选特征组合基本是不可能的。4、即时侦测难由于前面提到的概念迁移,正负样本严重偏差以及数据维度、规模庞大的问题,大部分的现有方法很难做到准确、高效的即时侦测。但具备即时侦测能力的模型才具有部署应用的价值。对于现有技术存在的上述问题,目前大多数的解决方案是适当地引入人工调节。尽管引入人工调节能够缓解上述问题的带来的负面影响,但人工调节会耗费不菲的人力资源,同时,人工的主观性会对模型的鲁棒性带来新的负面影响。因此,有必要提供一种新的信贷诈骗识别系统,能够在缓解非均衡性数据带来的影响、提升诈骗识别准确率的同时,可以实现自适应的、即时的信贷诈骗识别。
技术实现思路
本申请提供了一种金融信贷诈骗识别方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种金融信贷诈骗识别方法,包括以下步骤:步骤a:接收最新用户行为数据,对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;步骤b:利用所述重采样数据学习新的子模型;步骤c:将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正,得到新的诈骗识别总模型;步骤d:通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本,对所述最新用户行为数据进行诈骗识别。本申请实施例采取的技术方案还包括:在所述步骤a中,所述对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为:采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样;所述EasyEnsemble算法通过对多数类样本进行欠采样,与少数类样本形成训练数据集并训练模型,记为子模型i;并重复n次,形成一个子模型集成,结果输出是一个由n个子模型组成的集成模型。本申请实施例采取的技术方案还包括:在所述步骤c中,所述将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正具体为:通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正。本申请实施例采取的技术方案还包括:所述更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理的K个数据集训练模型,单个模型或设定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用于对没有标签的用户行为数据进行测试。本申请实施例采取的技术方案还包括:所述遗忘框架在每次训练前调用全部或部分最近的历史少数类样本,并“遗忘”相应的多数类样本,只利用最新的K个数据集中的多数类样本与所述全部或部分最近的历史少数类样本进行EasyEnsemble过程。本申请实施例采取的另一技术方案为:一种金融信贷诈骗识别系统,包括:数据接收模块:用于接收最新用户行为数据;重采样模块:用于对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;模型训练模块:用于利用所述重采样数据学习新的子模型;模型修正模块:用于将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正,得到新的诈骗识别总模型;诈骗识别模块:用于通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本,对所述最新用户行为数据进行诈骗识别。本申请实施例采取的技术方案还包括:所述重采样模块对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为:采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样;所述EasyEnsemble算法通过对多数类样本进行欠采样,与少数类样本形成训练数据集并训练模型,记为子模型i;并重复n次,形成一个子模型集成,结果输出是一个由n个子模型组成的集成模型。本申请实施例采取的技术方案还包括:所述模型修正模块将新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正具体为:通过更新框架和遗忘框架将新的子模型融合至现有诈骗识本文档来自技高网
...

【技术保护点】
1.一种金融信贷诈骗识别方法,其特征在于,包括以下步骤:步骤a:接收最新用户行为数据,对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;步骤b:利用所述重采样数据学习新的子模型;步骤c:将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正,得到新的诈骗识别总模型;步骤d:通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本,对所述最新用户行为数据进行诈骗识别。

【技术特征摘要】
1.一种金融信贷诈骗识别方法,其特征在于,包括以下步骤:步骤a:接收最新用户行为数据,对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;步骤b:利用所述重采样数据学习新的子模型;步骤c:将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正,得到新的诈骗识别总模型;步骤d:通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本,对所述最新用户行为数据进行诈骗识别。2.根据权利要求1所述的金融信贷诈骗识别方法,其特征在于,在所述步骤a中,所述对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为:采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样;所述EasyEnsemble算法通过对多数类样本进行欠采样,与少数类样本形成训练数据集并训练模型,记为子模型i;并重复n次,形成一个子模型集成,结果输出是一个由n个子模型组成的集成模型。3.根据权利要求2所述的金融信贷诈骗识别方法,其特征在于,在所述步骤c中,所述将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正具体为:通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正。4.根据权利要求3所述的金融信贷诈骗识别方法,其特征在于,所述更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理的K个数据集训练模型,单个模型或设定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用于对没有标签的用户行为数据进行测试。5.根据权利要求4所述的金融信贷诈骗识别方法,其特征在于,所述遗忘框架在每次训练前调用全部或部分最近的历史少数类样本,并“遗忘”相应的多数类样本,只利用最新的K个数据集中的多数类样本与所述全部或部分最近的历史少数类样本进行EasyEnsemble过程。6.一种金融信贷诈骗识别系统,其特征在于,包括:数据接收模块:用于接收最新用户行为数据;重采样模块:用于对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样,生成重采样数据;模型训练模块:用于利用所述重采样数据学习新的子模型;模型修正模块:用于将所述新的子模型融合至现有诈骗识别模型中,对现有诈骗识别模型进行修正...

【专利技术属性】
技术研发人员:侯宪龙尚田丰赖清泉须成忠
申请(专利权)人:深圳先进技术研究院招联消费金融有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1