一种数据质量在线分析方法、装置、机器可读介质及设备制造方法及图纸

技术编号:28978323 阅读:17 留言:0更新日期:2021-06-23 09:24
本发明专利技术公开了一种数据质量在线分析方法,包括:在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;识别待分析的数据文件中变量的类型;确定并显示与变量的类型相对应的分析指标;根据所述分析指标对所述数据进行质量分析。本发明专利技术使用者通过在操作界面内对数据进行探查分析,可以看到数据的分布、缺失情况,支持多数据的建模效果的比较,体现数据的质量的优劣。本发明专利技术经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。

【技术实现步骤摘要】
一种数据质量在线分析方法、装置、机器可读介质及设备
本专利技术涉及人工智能领域,具体涉及一种数据质量在线分析方法、装置、机器可读介质及设备。
技术介绍
金融机构在做建模的时候,模型效果依赖于数据质量的高低。需要一种便捷的方式,可以评估数据的质量。尤其,有些第三方的外部数据如征信数据的采买成本特别高。如果经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种数据质量在线分析方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。为实现上述目的及其他相关目的,本专利技术提供一种数据质量在线分析方法,包括:在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;识别待分析的数据文件中变量的类型;确定并显示与变量的类型相对应的分析指标;根据所述分析指标对所述数据进行质量分析。可选地,所述变量的类型包括离散型和连续型。可选地,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。可选地,还包括:利用所述数据文件中的数据训练评分卡模型;确定并展示对应所述评分卡模型的评价指标。可选地,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。为实现上述目的及其他相关目的,本专利技术还一种数据质量在线分析装置,包括:数据获取模块,用于在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;数据识别模块,用于识别待分析的数据文件中变量的类型;指标确定模块,用于确定并显示与变量的类型相对应的分析指标;质量检测模块,用于根据所述分析指标对所述数据进行质量分析。可选地,所述变量的类型包括离散型和连续型。可选地,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。可选地,还包括:模型训练模块,用于利用所述数据文件中的数据训练评分卡模型;数据展示模块,用于确定并展示对应所述评分卡模型的评价指标。可选地,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。为实现上述目的及其他相关目的,本专利技术还提供一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。为实现上述目的及其他相关目的,本专利技术还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。如上所述,本专利技术提供的一种数据质量在线分析方法、装置、机器可读介质及设备,具有以下有益效果:本专利技术的一种数据质量在线分析方法,包括:在线获取待分析的数据文件,每个数据文件包括多条数据,每条数据包括多个变量;识别待分析的数据文件中变量的类型;确定并显示与变量的类型相对应的分析指标;根据所述分析指标对所述数据进行质量分析。本专利技术使用者通过在操作界面内对数据进行探查分析,可以看到数据的分布、缺失情况,支持多数据的建模效果的比较,体现数据的质量的优劣。本专利技术经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。附图说明图1为本专利技术一实施例一种数据质量在线分析方法的流程图;图2为本专利技术一实施例一种数据质量在线分析装置的硬件结构示意图;图3为本专利技术一实施例中终端设备的硬件结构示意图;图4为本专利技术一实施例中终端设备的硬件结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。金融机构在做建模的时候,模型效果依赖于数据质量的高低。需要一种便捷的方式,可以评估数据的质量。尤其,有些第三方的外部数据如征信数据的采买成本特别高,如果经过有效的数据质量分析,可以避免采买无必要的外部数据,减少浪费。如图1所示,基于上述问题,本申请实施例提供一种数据质量在线分析方法,包括:S11根据业务需求在线获取待分析数据文件;S12识别待分析的数据文件中每个变量的类型;S13确定与变量的类型相对应的分析指标;S14根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。需要说明的是,在步骤S11中,获取的每个待分析数据文件包括多条数据,每条数据包括多个变量。例如:表1姓名性别年龄收入(元)职业身高(m)张三男2035001.85李四男253500教师王五男303500教师1.75其中,表1中从第二行开始,每一行代表一条数据;每一列代表一个变量。由于每个数据文件中的变量包括多种类型,而每种类型的变量对应不同的分析指标,因此,在对数据进行分析前,需要确定变量的类型。具体地,所述识别待分析的数据文件中每个变量的类型的步骤包括:对变量进行字段检测,获取一个或多个目标字段;根据所述目标字段确定所述变量的类型。比如,如果字段为性别,则变量的类型为离散型,如果字段为收入,则变量的类型为连续型。在步骤S11中,根据业务需求获取待分析数据文件,可以理解为不同的业务需求需要不同的数据,根据不同的业务需求来获取数据文件。例如,业务需求A需要的数据包括数据文件A,业务需求B需要的数据包括数据文件B,业务需求C需要的数据包括数据文件C等等。在一实施例中,所述变量的类型包括离散型和连续型。如表1所示,姓名、性别、职业为离散性变量,而收入、年龄是连续型变量。针对离散性变量,需要确定的分析指标包括以下至少之一:缺失率、值域、值频、概率密度。其中,概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率本文档来自技高网...

【技术保护点】
1.一种数据质量在线分析方法,其特征在于,包括:/n根据业务需求在线获取待分析数据文件,每个数据文件包括多条数据,每条数据包括多个变量;/n识别待分析的数据文件中每个变量的类型;/n确定与变量的类型相对应的分析指标;/n根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。/n

【技术特征摘要】
1.一种数据质量在线分析方法,其特征在于,包括:
根据业务需求在线获取待分析数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
识别待分析的数据文件中每个变量的类型;
确定与变量的类型相对应的分析指标;
根据所述分析指标以及与所述业务需求对应的分析规则对所述数据进行质量分析。


2.根据权利要求1所述的数据质量在线分析方法,其特征在于,所述变量的类型包括离散型和连续型。


3.根据权利要求2所述的数据质量在线分析方法,其特征在于,若所述变量为离散型变量,则所述分析指标包括以下至少之一:缺失率、值域、值频、概率密度;若所述变量为连续型变量,则所述分析指标包括以下至少之一:缺失率、最大值、最小值、均值、众数、概率密度。


4.根据权利要求3所述的数据质量在线分析方法,其特征在于,还包括:
利用所述数据文件中的数据训练评分卡模型;
确定并展示对应所述评分卡模型的评价指标。


5.根据权利要求4所述的数据质量在线分析方法,其特征在于,对应所述评分卡模型的评价指标包括以下至少之一:AUC、KS指标。


6.一种数据质量在线分析装置,其特征在于,包括:
数据获取模块,用于根据业务需求在线获取待分析数据文件,每个数据文件包括多条数据,每条数据包括多个变量;
数据识别模块,用于识别待分析的数据文件中变量的类型;
指标确定...

【专利技术属性】
技术研发人员:胡佩涛
申请(专利权)人:北京云从科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1