金融欺诈检测中时间与成本特征选择方法、设备、介质技术

技术编号:21142820 阅读:19 留言:0更新日期:2019-05-18 05:39
本发明专利技术提供金融欺诈检测中时间与成本特征选择方法,包括步骤:从用户数据表中提取出用户的金融数据特征,对金融数据特征进行统计,对得到的统计特征进行筛选,得到n维特征,通过用户主键匹配用户标签;匹配数据库中n维特征对应的成本价值和时间价值;将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到学习模型;通过学习模型计算每个特征的重要性,对重要性进行排列,并进行固定维度的特征选择。本发明专利技术基于第三方金融欺诈数据,在特征选择过程中考虑了特征间的冗余相关性、特征自身的成本价值和时间价值,实用性广。

Selection of Time and Cost Characteristics, Equipment and Media in Financial Fraud Detection

【技术实现步骤摘要】
金融欺诈检测中时间与成本特征选择方法、设备、介质
本专利技术涉及金融
,尤其涉及金融欺诈检测中时间与成本特征选择方法、设备、介质。
技术介绍
在大数据时代,我们可以从数据中提取到用户的各类相关特征,如在电商数据中提取用户相关的购物特征,在医疗数据中提取用户相关的体检项目特征等,利用提取得到的特征可以预测用户的商品购买意向或者推断用户的健康状况。在实际应用中,用户的数据特征获取往往有各种不同的代价,比如在获取用户的一系列购物特征或者体检特征时需要一定的成本,如病人在医学诊断中进行的各类测试所需要的成本是不同的。同时,在实际应用中,不少数据特征本身带有时间属性信息,如我们可以使用以下两种特征刻画用户的消费情况:用户前十天的消费金额和用户前三个月的消费金额。相比而言,用户前十天的消费金额这个特征更能刻画用户的最近消费情况,如果不考虑特征获取成本和时间价值,很多理论上效果好的预测模型在应用中会缺乏实用性。同时,在大数据时代,高维数据往往对数据挖掘模型与算法都会带来巨大挑战,引发“维度诅咒”问题。为了减轻“维度诅咒”的影响,提升模型效果,实际的数据挖掘任务往往需要通过特征选择来减少数据特征的维度。传统的特征选择方法通过考虑特征之间的冗余相关性(如特征共线性等),从n个特征中选出k个特征,减少特征维度。但是现有的特征选择方法并没有显式的考虑特征自身的成本和时间价值,因此其实用性受限。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供金融欺诈检测中时间与成本特征选择方法,解决了现有的特征选择方法没有显式的考虑特征自身的成本和时间价值,实用性受限的问题。本专利技术提供金融欺诈检测中时间与成本特征选择方法,包括以下步骤:提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对所述金融数据特征进行统计,得到统计特征,并对所述统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;匹配时间与成本价值,匹配数据库中所述n维特征对应的成本价值和时间价值;构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化所述损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;计算特征重要性,通过所述机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。进一步地,所述提取金融数据特征步骤具体包括以下步骤:提取n维特征,从数据库中的用户数据表中提取与用户相关的金融数据特征,通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差,得到统计特征,对所述统计特征进行清洗筛选,得到n维特征;匹配用户标签,通过业务逻辑对用户进行标签标定,得到用户标签。进一步地,所述匹配时间与成本价值步骤中,根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表,获得特征对应的成本价值和时间价值。进一步地,所述机器学习模型为LightGBM模型。进一步地,所述构建机器学习模型步骤具体包括以下步骤:建立原损失函数,建立LightGBM模型的原损失函数,具体公式如下:其中,代表决策树模型树的集合,共有K棵树(t1,…,tK),i∈[1,N]代表从第1个样本到第N个样本,L代表定义的误差函数,xi代表第i个样本的特征,每个样本有n维特征,yi代表第i个样本的标签,Ω代表衡量树结构好坏的函数,tk(xi)代表第k棵决策树关于第i个样本的输出;所述定义的误差函数的具体公式如下:所述衡量树结构好坏的函数的具体公式如下:其中,T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值;建立新损失函数,建立LightGBM模型的新损失函数,具体公式如下:其中,Ok代表第k次迭代需要优化的损失函数,i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代,xi代表第i个样本的特征,每个样本有n维特征,Ψ(k,xi)是关于特征和树结构的代价函数,Ψc(k)是第k棵树中特征成本计算的函数;Ψ(k,xi)的具体公式如下:其中,代表第i个样本在前k棵树的评估代价函数,代表第i个样本在前k棵树的结构代价函数,C(k,i,m)代表在前k棵树中预测第i个样本是否用到特征m,是则C(k,i,m)=1,否则为C(k,i,m)=0,βm代表第m个特征的价格成本,μm代表第m个特征的时间价值,代表当前k次迭代中的第次迭代,代表第i个样本在第棵树中所属的叶子节点,代表第k棵树中从根节点走到xi所属的叶子节点需要经过的分裂节点个数;Ψc(k)的具体公式如下:其中,βm代表第m个特征的成本,μm代表第m个特征的时间价值,当特征m在第k棵树被使用时,D(k,m)=1,当特征m在第k棵树未被使用时,D(k,m)=0;使用Tk-1(xi)附近的二阶泰勒公式近似Ok,具体公式如下:其中,ΔΨ(xi)=Ψ(k,xi)-Ψ(k-1,xi),ΔΨc=Ψc(k)-Ψc(k-1);其中,代表第k棵树中属于叶子节点l的样本集合,ωk,l代表第k棵树中叶子节点l的值,是关于ωk,l的二次函数,当时,损失函数取最小值;训练LightGBM模型,将[Xi,yi],i∈[1,N]作为LightGBM模型的输入,迭代训练后LightGBM模型的输出对应样本的预测值Predicti,其中,i代表第i个样本,Xi代表第i个样本的n维特征向量,yi代表第i个样本的真实标签值,N代表样本总数,Predicti代表第i个样本的预测值。进一步地,所述计算特征重要性步骤中,根据基尼系数计算LightGBM模型的特征重要性,将计算得到的特征重要性进行降序排序,筛选得到维度为M的特征,具体公式如下:其中,m代表样本中的第m个特征,K代表决策树模型的树的总棵树,Ψ(k,m)代表在第k棵树中使用特征m进行划分后的减少的基尼系数值的和。进一步地,所述提取n维特征步骤中,选择缺失值少于缺失值阈值的特征,得到n维特征,所述缺失值阈值为40%~60%。一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述金融欺诈检测中时间与成本特征选择方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述金融欺诈检测中时间与成本特征选择方法。相比现有技术,本专利技术的有益效果在于:本专利技术提供金融欺诈检测中时间与成本特征选择方法,包括以下步骤:提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对金融数据特征进行统计,得到统计特征,并对统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;匹配时间与成本价值,匹配数据库中n维特征对应的成本价值和时间价值;构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;计算特征重要性,通过机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。本专利技术涉及电子设备与可读存储介质,用于执行金融欺诈检测中时间与成本特征选择方法。本专利技术基于互联网金融公司的第三方金融欺诈数据,在特征选择过程中除了考虑特征间的冗余相关性外,还考虑了特本文档来自技高网...

【技术保护点】
1.金融欺诈检测中时间与成本特征选择方法,其特征在于包括以下步骤:提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对所述金融数据特征进行统计,得到统计特征,并对所述统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;匹配时间与成本价值,匹配数据库中所述n维特征对应的成本价值和时间价值;构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化所述损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;计算特征重要性,通过所述机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。

【技术特征摘要】
1.金融欺诈检测中时间与成本特征选择方法,其特征在于包括以下步骤:提取金融数据特征,从用户数据表中提取出用户的金融数据特征,对所述金融数据特征进行统计,得到统计特征,并对所述统计特征进行筛选,得到n维特征,通过用户主键匹配得到用户标签;匹配时间与成本价值,匹配数据库中所述n维特征对应的成本价值和时间价值;构建机器学习模型,将每个特征对应的成本价值和时间价值计入损失函数的一部分,以最小化所述损失函数为目标进行模型训练,将用户特征和用户标签作为模型的输入进行模型训练,得到机器学习模型;计算特征重要性,通过所述机器学习模型计算每个特征的重要性,对每个特征对应的重要性进行排列,并进行固定维度的特征选择。2.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述提取金融数据特征步骤具体包括以下步骤:提取n维特征,从数据库中的用户数据表中提取与用户相关的金融数据特征,通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差,得到统计特征,对所述统计特征进行清洗筛选,得到n维特征;匹配用户标签,通过业务逻辑对用户进行标签标定,得到用户标签。3.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述匹配时间与成本价值步骤中,根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表,获得特征对应的成本价值和时间价值。4.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法,其特征在于:所述机器学习模型为LightGBM模型。5.如权利要求4所述的金融欺诈检测中时间与成本特征选择方法,其特征在于,所述构建机器学习模型步骤具体包括以下步骤:建立原损失函数,建立LightGBM模型的原损失函数,具体公式如下:其中,代表决策树模型树的集合,共有K棵树(t1,…,tK),i∈[1,N]代表从第1个样本到第N个样本,L代表定义的误差函数,xi代表第i个样本的特征,每个样本有n维特征,yi代表第i个样本的标签,Ω代表衡量树结构好坏的函数,tk(xi)代表第k棵决策树关于第i个样本的输出;所述定义的误差函数的具体公式如下:所述衡量树结构好坏的函数的具体公式如下:其中,T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值;建立新损失函数,建立LightGBM模型的新损失函数,具体公式如下:其中,Ok代表第k次迭代需要优化的损失函数,i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代,xi代表第i个样本的特征,每个样本有n维特征,Ψ(k,...

【专利技术属性】
技术研发人员:林颜双陈鑫亚南欧何冲冲
申请(专利权)人:连连银通电子支付有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1