一种预处理数据的方法和装置制造方法及图纸

技术编号：20160333 阅读：35 留言：0更新日期：2019-01-19 00:13

本发明专利技术的实施方式提供了一种预处理数据的方法。该方法包括：提取源数据集的一个特征变量；根据所述特征变量确定源数据集的特征区间；将特征区间分成多个子特征区间；处理属于所述多个子特征区间的数据。本发明专利技术在不额外增加运维成本的情况下，提升了数据预处理的效率，增强了数据预处理模块的可拓展性。此外，本发明专利技术的实施方式还提供了一种预处理数据的装置、一种设备以及一种计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
一种预处理数据的方法和装置
本专利技术的实施方式涉及数据挖掘
，更具体地，本专利技术的实施方式涉及一种预处理数据的方法、一种预处理数据的装置、一种设备以及一种计算机可读存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。数据预处理(datapreprocessing)是指在主要处理之前对数据进行的一些处理。现实世界中的数据大体上都是不完整、不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量，产生了数据预处理技术。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。数据预处理可以是对所收集的数据进行分类或分组前所做的审核、筛选、排序等必要的处理。这些数据预处理技术在数据挖掘之前使用，大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。现有技术存在如下两种数据预处理方式：一种是直接从数据源逐条加载处理；另一种是采用Hadoop等大数据技术进行数据处理。对于逐条加载的数据预处理方式，其处理效率低，且随着数据量的增长，处理效率下降则更加明...

【技术保护点】
1.一种预处理数据的方法，其特征在于，包括：提取源数据集的一个特征变量；根据所述特征变量确定源数据集的特征区间；将特征区间分成多个子特征区间；处理属于所述多个子特征区间的数据。

【技术特征摘要】
1.一种预处理数据的方法，其特征在于，包括：提取源数据集的一个特征变量；根据所述特征变量确定源数据集的特征区间；将特征区间分成多个子特征区间；处理属于所述多个子特征区间的数据。2.如权利要求1所述的方法，其特征在于，所述特征变量是源数据集中数据共有的特征。3.如权利要求1所述的方法，其特征在于，所述多个子特征区间是均等长度的。4.如权利要求1-3所述的方法，其特征在于，所述处理属于所述多个子特征区间的数据是同时进行的。5.如权利要求4所述的方法，其特征在于，还包括：将处理后的数据存入目标位置。6.如权利要求5所述的方法，其特征在于，还包括：校验源数据集和目标位置数据的一致性。7.一种预处理数据的装置，其特征在于，包括：特征变量模块，用于提取源数据集的一个特征变量；特征区间模块，用于根据所述特征变量确定源数据集的特征区间；子特征区间模块，用于将特征区间分成多个子特征区间；...

【专利技术属性】
技术研发人员：胡飞，
申请(专利权)人：宜人恒业科技发展北京有限公司，普信恒业科技发展北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人