一种基于LOF算法的互联网金融申请反欺诈识别方法技术

技术编号:26068117 阅读:11 留言:0更新日期:2020-10-28 16:41
本发明专利技术提供了一种基于LOF算法的互联网金融申请反欺诈识别方法,包括采集数据并对其进行预处理;进行数据特征选择,获得LOF算法的数据集并将数据集随机划分为不同的数据子集;计算数据点的局部可达距离、局部密度可达密度以及局部离群因子LOF值;利用LOF值来判断数据点是不是离群点来作为该申请行为是否属于欺诈行为。实施本发明专利技术技术方案,有效缩短了异常点检测的运行时间,提高了高维大数据集异常值检测的效率,能够对互联网申请行为实时监控,及时准确检测发现申请异常欺诈行为,减少信贷损失,更加适合当前大数据风控的需要。

【技术实现步骤摘要】
一种基于LOF算法的互联网金融申请反欺诈识别方法
本专利技术涉及互联网金融行业的风控
,特别涉及。
技术介绍
随着互联网金融的发展,灰产、黑产等欺诈行为的种类和方式也越来越多,据不完全统计,每年因欺诈导致的损失可达到500亿—1000亿,欺诈风险已成为互联网金融防范风险的重中之重。从统计学来说,欺诈行为相对正常行为属于离群点,在数据的散布图中,它们远离其它数据点,其属性值显著地偏离期望或常见的属性值,离群点检测是成为金融反欺诈的一种常用方法,如何有效地检测出在高度可能性的欺诈行为,成为各大金融机构的反欺诈的主要工作。现有技术中,离群点检测方法主要有三种:基于统计的离群点检测方法(HBOS:基于直方图的异常值得分)、基于距离的离群点检测方法(如K最近邻KNN)及基于聚类的离群点检测方法(如K均值聚类K-means、DBSCAN)等,但现有技术的算法均较复杂、运算量大、时间复杂度大及精度不高等问题,对于高维大数据检测效率较低。如何减少离群点检测的计算量及运行时长成为亟待解决的技术问题。LOF算法(LocalOutlierFactor,局部离群因子)是基于密度的异常数据检测方法,该算法引入每一个数据对象的可达距离和可达密度的概念,来判断一个数据对象是否是离群点,针对数据集中的每个数据计算一个局部异常因子LOF,来反映一个数据的异常程度,因为LOF算法对密度的衡量是通过点的第k邻域来计算,仅对可能出现离群点的边界单元进行离群点的挖掘,而不是全局计算,且在样本空间数据分布不均匀的情况下也可以准确发现离群点,可以有效减少离群点需要检测的数据量、计算量以及运行时长,对于高维大数据的检测效率更高,也更加适合当前大数据风控的需要。
技术实现思路
为了解决上述技术问题,本专利技术中披露了一种基于LOF算法的互联网金融申请反欺诈识别方法,本专利技术的技术方案是这样实施的:一种基于LOF算法的互联网金融申请反欺诈识别方法,包括以下步骤:步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;步骤二:数据预处理,包括异常值处理和归一化处理;步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;步骤五:根据局部可达距离,计算对象p的局部可达密度;步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出。进一步地,所述异常值处理包括剔除无关维度的数据并删除数据中的异常值。进一步地,所述归一化处理采用离差标准化的方法。进一步地,所述第K距离领域、局部可达距离和局部可达密度只在对象p所在的数据子集中计算。进一步地,所述阈值ψ依靠经验值或者实际业务变化动态设定和调整。本专利技术技术方案将LOF算法互联网金融申请反欺诈识别中,本专利技术通过根据经验及实际业务设置离群点阈值ψ和递归计算中不断剔除密度较大的非离群点及输出离群点可能性大的异常点,有效缩短了异常点检测的运行时间,提高了高维大数据集异常值检测的效率,能够对互联网申请行为实时监控,及时准确检测发现申请异常欺诈行为,减少信贷损失。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于LOF算法的互联网金融申请反欺诈识别方法,包括以下步骤:步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;步骤二:数据预处理,包括异常值处理和归一化处理;步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;步骤五:根据局部可达距离,计算对象p的局部可达密度;步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出,能够有效缩减在大数据集上的运行时间,提升异常值的检测效率。在该实施方式中,数据可以通过部署在网络节点上的流量采集设备,采集到的数据特征要能够全面反映申请用户还款能力与还款意愿的综合状况;所述个人基本信息包括个人及家庭状态、工作及收入水平等传统数据。在该实施方式中,将LOF算法的数据集切分为不同的数据集,包括训练集和验证集,在高维数据集中,有些数据维度会都被切分成n段,数据集会被沿着每一维标注的分割点连线所分割开,切出来的不规则断面即为网格边界,网格边界的具体边界值需要根据数据集维度、大小以及给定的分割间隔数n共同决定的。在该实施方式中,对象p所在的子数据集定义为pi;对象p与距离它第k近的邻居的距离为dk(p),则至少有k个对象oi,满足d(oi,p)≤d(ok,p),最多有k-1个对象oj,满足:d(oj,p)<d(ok,p);对象p的k近邻表示由所有与对象p之间距离小于dk(p)的对象组成的集合,然后求出对象p到k近邻的距离的平均,即p的m距离,计算公式为:对象p的m近邻表示所有与p之间距离小于m距离的对象组成的集合,对象p相对于对象o的可达距离reach_distm(o,p)表示对象p的m距离和对象p与o之间距离的最大值,对象p的局部可达密度lrdm(p)值表示对象p的第K距离邻域内点到p的平均可达距离的倒数,则p的局部可达密度lrdm(p)值为:则对象p的局部异常因子为:在一种优选的实施方式中,所述异常值处理包括剔除无关维度的数据并删除数据中的异常值。在一种优选的实施方式中,所述归一化处理采用离差标准化的方法,归一化处理能够使数据映射到[0,1]区间上,所述离差标准化公式为:式中,x'为归一化后的值,x为归一化前的数据,xmin是特征中的最小值,xmax是特征中的最大值;在一种优选的实施方式中,所述第K距离领域、局部可达距离和局部可达密度只在对象p所在的数据子集中计本文档来自技高网
...

【技术保护点】
1.一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,包括以下步骤:/n步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;/n步骤二:数据预处理,包括异常值处理和归一化处理;/n步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;/n步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;/n步骤五:根据局部可达距离,计算对象p的局部可达密度;/n步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;/n步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出。/n

【技术特征摘要】
1.一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,包括以下步骤:
步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;
步骤二:数据预处理,包括异常值处理和归一化处理;
步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;
步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;
步骤五:根据局部可达距离,计算对象p的局部可达密度;
步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;
步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不...

【专利技术属性】
技术研发人员:江远强
申请(专利权)人:百维金科上海信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1