数据稳定性监控方法、装置、计算机设备及介质制造方法及图纸

技术编号:26378427 阅读:30 留言:0更新日期:2020-11-19 23:47
本发明专利技术涉及数据处理领域,公开了一种数据稳定性监控方法、装置、计算机设备及介质,所述方法包括:通过从不同的数据源头进行历史数据采集,得到初始数据,其中,初始数据包含来源标签的属性,计算初始数据中每个特征的信息值IV,并根据信息值IV筛选出监控特征,根据监控特征和来源标签,构建多层XGBoost模型,并采用初始数据中的监控特征,对多层XGBoost模型进行训练,得到训练结果,按照预设周期,从不同的数据源头进行实时数据采集,得到周期监控数据,将周期监控数据输入到多层XGBoost模型进行分析,得到分析结果,基于训练结果和分析结果,确定数据稳定性的监控结果,本发明专利技术提高了数据稳定性监控的效率。

【技术实现步骤摘要】
数据稳定性监控方法、装置、计算机设备及介质
本专利技术涉及数据处理领域,尤其涉及一种数据稳定性监控方法、装置、计算机设备及介质。
技术介绍
随着社会经济的快速发展,金融企业涉及的业务范畴也越来越大,存在许多业务交叉点,一些金融数据,往往来源于多个内部系统或外部系统,亦或者其他外部数据供应商,而数据质量(可正常使用的数据的稳定性)对业务处理的效率有着重要影响,因而,需要在使用这些数据之前,对这些数据的质量进行监控。当前进行数据质量监控预警,通常采用对数据的饱和度等进行直接监控的方法来实现,专利技术人在实现本申请的过程中发现,现有方式至少存在如下问题:现有方式需要建立大量监控,且容易因为个别指标出现误报,同时,也不能保证可以及时通知到所有数据应用方,这导致了数据监控工作量大且效率低,因而,亟需一种高效进行数据的稳定性监控方法。
技术实现思路
本专利技术实施例提供一种数据稳定性监控方法、装置、计算机设备和存储介质,以提高数据稳定性的监控效率。为了解决上述技术问题,本申请实施例提供一种数据稳定性监控方法,包括:...

【技术保护点】
1.一种数据稳定性监控方法,其特征在于,包括:/n从不同的数据源头进行历史数据采集,得到初始数据,其中,所述初始数据包含来源标签的属性;/n计算所述初始数据中每个特征的信息值IV,并根据所述信息值IV筛选出监控特征;/n根据所述监控特征和所述来源标签,构建多层XGBoost模型,并采用所述初始数据中的监控特征,对所述多层XGBoost模型进行训练,得到训练结果;/n按照预设周期,从不同的数据源头进行实时数据采集,得到周期监控数据;/n将所述周期监控数据输入到所述多层XGBoost模型进行分析,得到分析结果;/n基于所述训练结果和所述分析结果,确定数据稳定性的监控结果。/n

【技术特征摘要】
1.一种数据稳定性监控方法,其特征在于,包括:
从不同的数据源头进行历史数据采集,得到初始数据,其中,所述初始数据包含来源标签的属性;
计算所述初始数据中每个特征的信息值IV,并根据所述信息值IV筛选出监控特征;
根据所述监控特征和所述来源标签,构建多层XGBoost模型,并采用所述初始数据中的监控特征,对所述多层XGBoost模型进行训练,得到训练结果;
按照预设周期,从不同的数据源头进行实时数据采集,得到周期监控数据;
将所述周期监控数据输入到所述多层XGBoost模型进行分析,得到分析结果;
基于所述训练结果和所述分析结果,确定数据稳定性的监控结果。


2.如权利要求1所述的数据稳定性监控方法,其特征在于,所述初始数据中的数据类型包括连续型和离散性,所述计算所述初始数据中每个特征的信息值IV包括:
对所述初始数据中数据类型为连续型的特征,进行分箱处理,将连续型的特征转化为离散型特征;
针对所有离散型特征进行独热编码,得到数字化变量;
根据所述数字化变量,计算每个特征对应的信息值IV。


3.如权利要求1所述的数据稳定性监控方法,其特征在于,所述根据所述信息值IV筛选出监控特征包括:
针对同一来源的信息值IV,对所述信息值IV进行重要性排序,得到重要性由高到低的排序结果;
根据所述排序结果,对所述信息值IV对应的属性特征进行筛选,得到所述监控特征。


4.如权利要求1至3任一项所述的数据稳定性监控方法,其特征在于,所述多层XGBoost模型为总分结构,包括一个总模型和若干子模型,每个来源的初始数据对应一个所述子模型。


5.如权利要求4所述的数据稳定性监控方法,其特征在于,所述采用所述初始数据中的监控特征,对所述多层XGBoost模型进行训练,得到训练结果包括:
针对来源标签相同的初始数据,根据每个监控特征的特征值的大小顺序,对所述初始数据进行排序,得到M个block结构,其中,所述block结构的数量与所述监控特征的数量相同,M为正整数;
将所述M个block结构输入到所述初始数据对应的子模型中进行训练,得到树集合;
针对每个所述监控特征,将所述树集合中每棵树上所述监控特征的分数进行累加,得到所述监控特征对应的得分;
将每个所述监控特征对应的得分,作为所述训练结果。


6.如权利要求1所述的数据稳定性监...

【专利技术属性】
技术研发人员:张浩然张跃
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1