数据预处理方法和装置制造方法及图纸

技术编号:19320343 阅读:20 留言:0更新日期:2018-11-03 10:53
本发明专利技术实施例提供一种数据预处理方法和装置,能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不同步的问题。该数据预处理方法包括:接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。

Data preprocessing method and device

The embodiment of the present invention provides a data preprocessing method and device, which can effectively solve the problems of inconsistent data preprocessing, code duplication and unsynchronized change in the prior art. The data preprocessing method includes: receiving requests for cleaning methods in call packages issued by business models; the requests include: source data parameters; traversing configuration files to find preprocessing configuration information matching the source data parameters; and importing source data according to preprocessing procedures and preprocessing configuration information in packages. Preprocessing.

【技术实现步骤摘要】
数据预处理方法和装置
本专利技术涉及计算机
,尤其涉及一种数据预处理方法和装置。
技术介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。Spark是一个为速度和通用目标设计的集群计算平台,能更有效地支持多种类型的计算,如交互式查询和流处理。随着Hadoop+Spark大数据框架的逐步发展,越来越多擅长不同编程语言的数据挖掘工程师会利用大数据框架开发不同的业务模型,例如用户信用评分模型、刷单模型、黄牛识别模型。之后,数据挖掘工程师可针对各个业务模型进行数据预处理、模型训练等。在现有技术中,往往是针对各个业务模型单独编写对应的数据预处理程序。例如,针对信用评分模型编写了数据预处理程序,针对刷单模型编写了数据预处理程序。虽然这两个模型都用到了用户历史订单相关的指标,比如历史有效订单量,但是需要分别针对该指标进行预处理。另外,虽然这两个模型都用到了相同的离散化处理方法,但是需要各自编写预处理程序。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:第一、数据预处理不统一。对于相同的数据,不同业务模型会有不同的预处理过程。第二,代码重复。对于不同业务模型中相同的预处理步骤,需要重复开发代码,增加开发成本。第三、变更不同步。当业务变化导致数据变更时,需要分别对不同业务模型中的预处理程序进行修改处理。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据预处理方法和装置,能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不同步的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据预处理方法。本专利技术实施例的数据预处理方法包括:步骤S1、接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;步骤S2、遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。可选地,所述源数据参数包括:表名、表中的字段名;所述预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。可选地,所述表中字段的预处理配置参数包括以下至少一项:数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。可选地,在步骤S1之前,所述方法还包括:初始化配置文件,并将初始化后的配置文件写入缓存。可选地,在步骤S3之后,所述方法还包括:将源数据预处理结果返回至所述业务模型。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种数据预处理装置。本专利技术实施例的数据预处理装置包括:接收模块,用于接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;匹配模块,用于遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;执行模块,用于根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。可选地,所述接收模块接收的源数据参数包括:表名、表中的字段名;所述匹配模块查找到的预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。可选地,所述匹配模块查找到的表中字段的预处理配置参数包括以下至少一项:数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。可选地,所述装置还包括:配置文件加载模块,用于初始化配置文件,并将初始化后的配置文件写入缓存。可选地,所述装置还包括:输出模块,用于将源数据预处理结果返回至所述业务模型。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种电子设备。本专利技术实施例的电子设备,包括:一个或多个处理器;以及,存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例的数据预处理方法。为实现上述目的,根据本专利技术实施例的又一个方面,提供了一种计算机可读介质。本专利技术实施例的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例的数据预处理介质。上述专利技术中的一个实施例具有如下优点或有益效果:在本专利技术实施例中,针对不同业务模型的数据预处理需求,开发了统一的代码包以及统一的配置文件。在业务模型有数据预处理需求时,通过接收业务模型发出的调用包中的清洗方法的请求,查找与所述请求包含的源数据参数相匹配的预处理配置信息,并根据包中的预处理程序和查找到的预处理配置信息对源数据进行预处理。这样一来,有效解决了现有技术存在的数据预处理不统一、代码重复、变更不同步的问题。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的数据预处理方法的主要步骤示意图;图2是根据本专利技术实施例的数据预处理方法的流程示意图;图3是图2所示步骤A7的一种流程示意图;图4是根据本专利技术实施例的数据预处理装置的主要模块组成示意图;图5是用于实现本专利技术实施例的电子设备的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本专利技术的主要思路是:针对不同业务模型的数据预处理需求,开发统一的代码包以及统一的配置文件。在业务模型有数据预处理需求时,通过代码包中的预处理程序、与源数据匹配的预处理配置信息进行数据预处理。这样一来,有效解决了现有技术存在的数据预处理不统一、代码重复、变更不同步的问题。图1是根据本专利技术实施例的数据预处理方法的主要步骤示意图。图1是从数据预处理装置一侧对数据预处理方法进行描述的。如图1所示,本专利技术实施例的数据预处理方法主要包括以下步骤:步骤S1、接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数。其中,所述述源数据参数包括:表名、表中的字段名。进一步,在步骤S1之前,所述方法还包括:初始化配置文件,并将初始化后的配置文件写入缓存。步骤S2、遍历配置文件,查找与所述源数据参数匹配的预处理配置信息。其中,所述预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。进一步,所述表中字段的预处理配置参数包括以下至少一项:数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。进一步,在步骤S3之后,所述方法还包括:将源数据预处理结果返回至所述业务模型。在本专利技术实施例中,针对不同业务模型统一开发代码包、统一开发配置文件,并在接收到业务模型发出的调用包中的清洗方法请求时,根据与源数据匹配的预处理配置信息有针对性地执行预处理程序中的部分代码。这样一来,有效解本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,其特征在于,所述方法包括:步骤S1、接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;步骤S2、遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。

【技术特征摘要】
1.一种数据预处理方法,其特征在于,所述方法包括:步骤S1、接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;步骤S2、遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。2.根据权利要求1所述的方法,其特征在于,所述源数据参数包括:表名、表中的字段名;所述预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。3.根据权利要求2所述的方法,其特征在于,所述表中字段的预处理配置参数包括以下至少一项:数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。4.根据权利要求1所述的方法,其特征在于,在步骤S1之前,所述方法还包括:初始化配置文件,并将初始化后的配置文件写入缓存。5.根据权利要求1所述的方法,其特征在于,在步骤S3之后,所述方法还包括:将源数据预处理结果返回至所述业务模型。6.一种数据预处理装置,其特征在于,所述装置包括:接收模块,用于接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;匹配模块,用于遍历配置文件,查找与所述源数据参数匹配的预处...

【专利技术属性】
技术研发人员:王成
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1