数据预处理方法和装置制造方法及图纸

技术编号：19320343 阅读：20 留言：0更新日期：2018-11-03 10:53

本发明专利技术实施例提供一种数据预处理方法和装置，能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不同步的问题。该数据预处理方法包括：接收业务模型发出的调用包中的清洗方法的请求；所述请求包括：源数据参数；遍历配置文件，查找与所述源数据参数匹配的预处理配置信息；根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。

Data preprocessing method and device

The embodiment of the present invention provides a data preprocessing method and device, which can effectively solve the problems of inconsistent data preprocessing, code duplication and unsynchronized change in the prior art. The data preprocessing method includes: receiving requests for cleaning methods in call packages issued by business models; the requests include: source data parameters; traversing configuration files to find preprocessing configuration information matching the source data parameters; and importing source data according to preprocessing procedures and preprocessing configuration information in packages. Preprocessing.

全部详细技术资料下载

【技术实现步骤摘要】
数据预处理方法和装置
本专利技术涉及计算机
，尤其涉及一种数据预处理方法和装置。
技术介绍
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。Spark是一个为速度和通用目标设计的集群计算平台，能更有效地支持多种类型的计算，如交互式查询和流处理。随着Hadoop+Spark大数据框架的逐步发展，越来越多擅长不同编程语言的数据挖掘工程师会利用大数据框架开发不同的业务模型，例如用户信用评分模型、刷单模型、黄牛识别模型。之后，数据挖掘工程师可针对各个业务模型进行数据预处理、模型训练等。在现有技术中，往往是针对各个业务模型单独编写对应的数据预处理程序。例如，针对信用评分模型编写了数据预处理程序，针对刷单模型编写了数据预处理程序。虽然这两个模型都用到了用户历史订单相关的指标，比如历史有效订单量，但是需要分别针对该指标进行预处理。另外，虽然这两个模型都用到了相同的离散化处理方法，但是需要各自编写预处理程序。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：第一、数据预处理不统一。对于相同的数据，不同业务模型会有不同的预处理过程。第二，代码重复。对于不同业务模型中相同的预处理步骤，需要重复开发代码，增加开发成本。第三、变更不同步。当业务变化导致数据变更时，需要分别对不同业务模型中的预处理程序进行修改处理。
技术实现思路
有鉴于此，本专利技术实施例提供一种数据预处理方法和装置，能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不...

【技术保护点】
1.一种数据预处理方法，其特征在于，所述方法包括：步骤S1、接收业务模型发出的调用包中的清洗方法的请求；所述请求包括：源数据参数；步骤S2、遍历配置文件，查找与所述源数据参数匹配的预处理配置信息；步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。

【技术特征摘要】
1.一种数据预处理方法，其特征在于，所述方法包括：步骤S1、接收业务模型发出的调用包中的清洗方法的请求；所述请求包括：源数据参数；步骤S2、遍历配置文件，查找与所述源数据参数匹配的预处理配置信息；步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。2.根据权利要求1所述的方法，其特征在于，所述源数据参数包括：表名、表中的字段名；所述预处理配置信息包括：表名、表中的字段名、表中字段的预处理配置参数。3.根据权利要求2所述的方法，其特征在于，所述表中字段的预处理配置参数包括以下至少一项：数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。4.根据权利要求1所述的方法，其特征在于，在步骤S1之前，所述方法还包括：初始化配置文件，并将初始化后的配置文件写入缓存。5.根据权利要求1所述的方法，其特征在于，在步骤S3之后，所述方法还包括：将源数据预处理结果返回至所述业务模型。6.一种数据预处理装置，其特征在于，所述装置包括：接收模块，用于接收业务模型发出的调用包中的清洗方法的请求；所述请求包括：源数据参数；匹配模块，用于遍历配置文件，查找与所述源数据参数匹配的预处...

【专利技术属性】
技术研发人员：王成，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人