金融欺诈检测中时间与成本特征选择方法、设备、介质技术

技术编号：21142820 阅读：19 留言：0更新日期：2019-05-18 05:39

本发明专利技术提供金融欺诈检测中时间与成本特征选择方法，包括步骤：从用户数据表中提取出用户的金融数据特征，对金融数据特征进行统计，对得到的统计特征进行筛选，得到n维特征，通过用户主键匹配用户标签；匹配数据库中n维特征对应的成本价值和时间价值；将每个特征对应的成本价值和时间价值计入损失函数的一部分，以最小化损失函数为目标进行模型训练，将用户特征和用户标签作为模型的输入进行模型训练，得到学习模型；通过学习模型计算每个特征的重要性，对重要性进行排列，并进行固定维度的特征选择。本发明专利技术基于第三方金融欺诈数据，在特征选择过程中考虑了特征间的冗余相关性、特征自身的成本价值和时间价值，实用性广。

Selection of Time and Cost Characteristics, Equipment and Media in Financial Fraud Detection

全部详细技术资料下载

【技术实现步骤摘要】
金融欺诈检测中时间与成本特征选择方法、设备、介质
本专利技术涉及金融
，尤其涉及金融欺诈检测中时间与成本特征选择方法、设备、介质。
技术介绍
在大数据时代，我们可以从数据中提取到用户的各类相关特征，如在电商数据中提取用户相关的购物特征，在医疗数据中提取用户相关的体检项目特征等，利用提取得到的特征可以预测用户的商品购买意向或者推断用户的健康状况。在实际应用中，用户的数据特征获取往往有各种不同的代价，比如在获取用户的一系列购物特征或者体检特征时需要一定的成本，如病人在医学诊断中进行的各类测试所需要的成本是不同的。同时，在实际应用中，不少数据特征本身带有时间属性信息，如我们可以使用以下两种特征刻画用户的消费情况：用户前十天的消费金额和用户前三个月的消费金额。相比而言，用户前十天的消费金额这个特征更能刻画用户的最近消费情况，如果不考虑特征获取成本和时间价值，很多理论上效果好的预测模型在应用中会缺乏实用性。同时，在大数据时代，高维数据往往对数据挖掘模型与算法都会带来巨大挑战，引发“维度诅咒”问题。为了减轻“维度诅咒”的影响，提升模型效果，实际的数据挖掘任务往往需要通过特征选择来减少数据特征的维度。传统的特征选择方法通过考虑特征之间的冗余相关性(如特征共线性等)，从n个特征中选出k个特征，减少特征维度。但是现有的特征选择方法并没有显式的考虑特征自身的成本和时间价值，因此其实用性受限。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供金融欺诈检测中时间与成本特征选择方法，解决了现有的特征选择方法没有显式的考虑特征自身的成本和时间价值，实用性受限的问题...

【技术保护点】
1.金融欺诈检测中时间与成本特征选择方法，其特征在于包括以下步骤：提取金融数据特征，从用户数据表中提取出用户的金融数据特征，对所述金融数据特征进行统计，得到统计特征，并对所述统计特征进行筛选，得到n维特征，通过用户主键匹配得到用户标签；匹配时间与成本价值，匹配数据库中所述n维特征对应的成本价值和时间价值；构建机器学习模型，将每个特征对应的成本价值和时间价值计入损失函数的一部分，以最小化所述损失函数为目标进行模型训练，将用户特征和用户标签作为模型的输入进行模型训练，得到机器学习模型；计算特征重要性，通过所述机器学习模型计算每个特征的重要性，对每个特征对应的重要性进行排列，并进行固定维度的特征选择。

【技术特征摘要】
1.金融欺诈检测中时间与成本特征选择方法，其特征在于包括以下步骤：提取金融数据特征，从用户数据表中提取出用户的金融数据特征，对所述金融数据特征进行统计，得到统计特征，并对所述统计特征进行筛选，得到n维特征，通过用户主键匹配得到用户标签；匹配时间与成本价值，匹配数据库中所述n维特征对应的成本价值和时间价值；构建机器学习模型，将每个特征对应的成本价值和时间价值计入损失函数的一部分，以最小化所述损失函数为目标进行模型训练，将用户特征和用户标签作为模型的输入进行模型训练，得到机器学习模型；计算特征重要性，通过所述机器学习模型计算每个特征的重要性，对每个特征对应的重要性进行排列，并进行固定维度的特征选择。2.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于，所述提取金融数据特征步骤具体包括以下步骤：提取n维特征，从数据库中的用户数据表中提取与用户相关的金融数据特征，通过统计所述金融数据特征的最大值、最小值、中位数、求和、均值、方差，得到统计特征，对所述统计特征进行清洗筛选，得到n维特征；匹配用户标签，通过业务逻辑对用户进行标签标定，得到用户标签。3.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于：所述匹配时间与成本价值步骤中，根据所述n维特征匹配数据库中的特征指标价格表和特征指标的时间价值表，获得特征对应的成本价值和时间价值。4.如权利要求1所述的金融欺诈检测中时间与成本特征选择方法，其特征在于：所述机器学习模型为LightGBM模型。5.如权利要求4所述的金融欺诈检测中时间与成本特征选择方法，其特征在于，所述构建机器学习模型步骤具体包括以下步骤：建立原损失函数，建立LightGBM模型的原损失函数，具体公式如下：其中，代表决策树模型树的集合，共有K棵树(t1,…,tK),i∈[1,N]代表从第1个样本到第N个样本，L代表定义的误差函数，xi代表第i个样本的特征，每个样本有n维特征，yi代表第i个样本的标签，Ω代表衡量树结构好坏的函数，tk(xi)代表第k棵决策树关于第i个样本的输出；所述定义的误差函数的具体公式如下：所述衡量树结构好坏的函数的具体公式如下：其中，T代表第k棵树的叶子个数,λ为参数,ω代表叶子的值；建立新损失函数，建立LightGBM模型的新损失函数，具体公式如下：其中，Ok代表第k次迭代需要优化的损失函数，i∈[1,N]代表从第1个样本到第N个样本,λ为参数,k代表第k次迭代，xi代表第i个样本的特征，每个样本有n维特征,Ψ(k,...

【专利技术属性】
技术研发人员：林颜双，陈鑫亚，南欧，何冲冲，
申请(专利权)人：连连银通电子支付有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人