一种数据可回溯的大规模离散型特征挖掘的方法技术

技术编号:18458830 阅读:57 留言:0更新日期:2018-07-18 12:43
本发明专利技术公开了一种数据可回溯的大规模离散型特征挖掘的方法,线上请求和线下调研使用相同的特征计算lib,线上特征计算使用的原始数据快照通过缓存进行全量保存,保障线下调研使用的数据和当时线上使用的数据一致,当特征挖掘有新的想法,需要从之前的数据中挖掘新的特征,只需更新特征计算lib,按照大规模离散型特征挖掘架构,利用更多的数据样本制作模型。本发明专利技术可以保障在线、离线特征挖掘使用数据的一致性,模型生产不依赖于线上特征,离线调研完成即可上线,模型生产效率高,离线数据同步机制统一,开发维护成本低。

A method of large scale discrete feature mining based on data backtracking

The invention discloses a method of large scale discrete feature mining for data traceback. Online request and offline investigation use the same features to calculate lib. The original data snapshot used in the online feature calculation is saved through the cache, and the data used under the line are consistent with the data used on the line at that time. Feature mining has new ideas. It needs to excavate new features from the previous data, only need to update the feature computing lib, according to the large-scale discrete feature mining architecture, and make use of more data samples to make the model. The invention can ensure the consistency of the data in the online and off-line feature mining. The model production does not depend on the line features, the off-line investigation and research can be on-line, the model production efficiency is high, the off-line data synchronization mechanism is unified, and the development and maintenance cost is low.

【技术实现步骤摘要】
一种数据可回溯的大规模离散型特征挖掘的方法
本专利技术涉及一种数据可回溯的大规模离散型特征挖掘的方法,能广泛应用于基于机器学习技术的金融风控领域。
技术介绍
一般基于机器学习技术的金融风控系统中,特征生产都分为在线和离线两个部分,保障离线计算的特征与在线计算的特征一致性,是风控模型稳定性和可解释性的前提。目前一般有以下两种做法:一、在线、离线都根据不同数据的时间属性进行数据获取,使用离线特征制作模型。这种做法可以保障模型生产的效率,但是这种方式有以下两个的缺点:1,由于在线数据存在实时更新的特性,仅根据时间戳理论上无法完全保证在线、离线使用数据的一致性,从而无法保障风控模型的稳定性和可解释性2,特征离线挖掘使用的架构和在线数据特征提取的架构差异较大,离线架构需要开发额外机制尽量保障数据提取的一致性,对于每种新增数据源都有相应的开发成本。二、离线特征生产仅仅用于测试,线上使用的模型均使用线上dump的特征制作。这种做法可以保障风控模型稳定性和可解释性,但是这种方式也有缺点:1、离线制作的特征无法直接用于生产模型,所有的模型制作均需要等待线上特征的积累,损失了模型的迭代效率。
技术实现思路
为了解决现有技术中存在的不足,本专利技术的目的在于提供一种数据可回溯的大规模离散型特征挖掘的方法。为达到上述目的,本专利技术所采用的技术手段是:一种数据可回溯的大规模离散型特征挖掘的方法,线上请求和线下调研使用相同的特征计算lib,线上特征计算使用的原始数据快照通过缓存进行全量保存,保障线下调研使用的数据和当时线上使用的数据一致,当特征挖掘有新的想法,需要从之前的数据中挖掘新的特征,只需更新特征计算lib,按照大规模离散型特征挖掘架构,利用更多的数据样本制作模型。进一步的,所述大规模离散型特征挖掘架构包含离线系统和在线系统,所述离线系统由数据仓库、离线特征挖掘系统、模型离线训练系统组成,离线特征挖掘系统通过加载特征计算lib从数据仓库中挖掘新特征,模型离线训练系统使用新特征进行模型训练;所述在线系统分为三层,业务层、特征层、数据存储层,所述业务层包括业务系统、风控决策系统、在线预估系统,业务系统将订单的基本信息发送至风控决策系统,风控决策系统根据订单的基本信息从数据存储层获取对应的原始数据,将原始数据通过特征处理系统加工得出订单特征,风控决策系统将订单特征发送至在线预估系统,在线预估系统根据不同的模型计算出该订单逾期的概率并返回给风控决策系统,风控决策系统通过数学拟合将概率转化为分数并根据分数决定订单通过或者拒绝,业务系统拿到决策系统的输出执行具体的订单通过或拒绝操作;所述特征层包括特征计算系统和数据网关层,所述数据存储层由线上存储系统构成,每一个业务请求都通过数据网关层获取数据,获取数据的同时会将此数据以请求id为key缓存在线上存储系统数据缓存区,缓存数据保留30天,每天新增的缓存数据会通过备份机制导入至离线数据仓库;当开展新特征挖掘工作时,更新特征lib,在离线进行特征挖掘和模型制作工作后,即可将模型应用于线上,理论上,线上效果和线下效果保持一致。更进一步的,所述将原始数据通过特征处理系统加工得出订单特征中,原始数据量级为MB,特征数据量级为KB。更进一步的,所述数据可回溯的大规模离散型特征挖掘的方法在风控系统中的应用,步骤如下:一、构建基于互联网大数据的风控系统,其中包括数据采集段、数据存储端、风控规则系统、在线特征计算系统、模型预估系统;二、构建离线特征模型处理系统,其中包括数据仓库、离线特征挖掘系统、模型离线训练系统;三、在线特征计算系统和离线特征挖掘系统,使用相同的特征计算lib;四、所有在线数据以快照方式存储至离线数据仓库;五、实施新的特征挖掘,只需更新特征计算lib,在离线进行数据挖掘、模型制作;六、制作的新模型连同更新的新特征计算lib,同时上线,将新的特征应用到线上。本专利技术的有益效果是:1,可以保障在线、离线特征挖掘使用数据的一致性;2,模型生产不依赖于线上特征,离线调研完成即可上线,模型生产效率高;3,离线数据同步机制统一,开发维护成本低。附图说明下面结合附图和实施例对本专利技术作进一步的阐述。图1为本专利技术架构示意图。具体实施方式实施例1一种数据可回溯的大规模离散型特征挖掘的方法,线上请求和线下调研使用相同的特征计算lib,线上特征计算使用的原始数据快照通过缓存进行全量保存,保障线下调研使用的数据和当时线上使用的数据一致,当特征挖掘有新的想法,需要从之前的数据中挖掘新的特征,只需更新特征计算lib,按照大规模离散型特征挖掘架构,利用更多的数据样本制作模型。首先需要保障数据获取和数据计算分离,特征计算lib输入为原始数据输出为特征,缓存可以根据需求选用不同的存储介质实现(如:mongo,redis等),数据仓库可以基于hadoop体系搭建(包含:hdfs,hbase,hive等),缓存数据定时备份至数据仓库可以基于通用调度框架(如:chronos,airfiow等)及备份工具(如:sqoop,mongodump等)结合实现,离线计算可以根据需求选用不同计算框架实现(如:mapreduce、spark等),离线特征挖掘需要通过离线计算框架调用特征计算lib实现。实施例2对于实施例1的一种优选结构,所述大规模离散型特征挖掘架构包含离线系统和在线系统,所述离线系统由数据仓库、离线特征挖掘系统、模型离线训练系统组成,离线特征挖掘系统通过加载特征计算lib从数据仓库中挖掘新特征,模型离线训练系统使用新特征进行模型训练;所述在线系统分为三层,业务层、特征层、数据存储层,所述业务层包括业务系统、风控决策系统、在线预估系统,业务系统将订单的基本信息(包含:订单id,手机号,设备号,身份证号码等)发送至风控决策系统,风控决策系统根据订单的基本信息从数据存储层获取对应的原始数据,将原始数据通过特征处理系统加工得出订单特征(原始数据量级为MB,特征数据量级为KB),风控决策系统将订单特征发送至在线预估系统,在线预估系统根据不同的模型计算出该订单逾期的概率并返回给风控决策系统,风控决策系统通过数学拟合将概率转化为分数并根据分数决定订单通过或者拒绝,业务系统拿到决策系统的输出执行具体的订单通过或拒绝操作;所述特征层包括特征计算系统和数据网关层,所述数据存储层由线上存储系统构成,每一个业务请求都通过数据网关层获取数据,获取数据的同时会将此数据以请求id为key缓存在线上存储系统数据缓存区,缓存数据保留30天,每天新增的缓存数据会通过备份机制导入至离线数据仓库;当开展新特征挖掘工作时,更新特征lib,在离线进行特征挖掘和模型制作工作后,即可将模型应用于线上,理论上,线上效果和线下效果保持一致。实施例3作为实施例1的一种应用方案,如图1所示,包含以下步骤:1、构建一套基于互联网大数据的风控系统,其中包括数据采集段、数据存储端、风控规则系统、特征计算系统、模型预估系统2、构建一套离线特征模型处理系统,其中包括数据仓库、离线特征挖掘系统、模型离线训练系统3、在线特征计算系统和离线特征挖掘系统,使用相同的特征计算lib4、所有在线数据以快照方式存储至离线数据仓库5、实施新的特征挖掘,只需要更新特征计算lib,在离线进行数据挖掘、模型制作即可本文档来自技高网...

【技术保护点】
1.一种数据可回溯的大规模离散型特征挖掘的方法,其特征在于:线上请求和线下调研使用相同的特征计算lib,线上特征计算使用的原始数据快照通过缓存进行全量保存,保障线下调研使用的数据和当时线上使用的数据一致,当特征挖掘有新的想法,需要从之前的数据中挖掘新的特征,只需更新特征计算lib,按照大规模离散型特征挖掘架构,利用更多的数据样本制作模型。

【技术特征摘要】
1.一种数据可回溯的大规模离散型特征挖掘的方法,其特征在于:线上请求和线下调研使用相同的特征计算lib,线上特征计算使用的原始数据快照通过缓存进行全量保存,保障线下调研使用的数据和当时线上使用的数据一致,当特征挖掘有新的想法,需要从之前的数据中挖掘新的特征,只需更新特征计算lib,按照大规模离散型特征挖掘架构,利用更多的数据样本制作模型。2.根据权利要求1所述的数据可回溯的大规模离散型特征挖掘的方法,其特征在于:所述大规模离散型特征挖掘架构包含离线系统和在线系统,所述离线系统由数据仓库、离线特征挖掘系统、模型离线训练系统组成,离线特征挖掘系统通过加载特征计算lib从数据仓库中挖掘新特征,模型离线训练系统使用新特征进行模型训练;所述在线系统分为三层,业务层、特征层、数据存储层,所述业务层包括业务系统、风控决策系统、在线预估系统,业务系统将订单的基本信息发送至风控决策系统,风控决策系统根据订单的基本信息从数据存储层获取对应的原始数据,将原始数据通过特征处理系统加工得出订单特征,风控决策系统将订单特征发送至在线预估系统,在线预估系统根据不同的模型计算出该订单逾期的概率并返回给风控决策系统,风控决策系统通过数学拟合将概率转化为分数并根据分数决定订单通过或者拒绝,业务系统拿到决策系统的输出执行具体的订单通过或拒绝操作...

【专利技术属性】
技术研发人员:郭安
申请(专利权)人:霍尔果斯智融未来信息科技有限公司
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1