一种预处理数据的方法和装置制造方法及图纸

技术编号:20160333 阅读:20 留言:0更新日期:2019-01-19 00:13
本发明专利技术的实施方式提供了一种预处理数据的方法。该方法包括:提取源数据集的一个特征变量;根据所述特征变量确定源数据集的特征区间;将特征区间分成多个子特征区间;处理属于所述多个子特征区间的数据。本发明专利技术在不额外增加运维成本的情况下,提升了数据预处理的效率,增强了数据预处理模块的可拓展性。此外,本发明专利技术的实施方式还提供了一种预处理数据的装置、一种设备以及一种计算机可读存储介质。

【技术实现步骤摘要】
一种预处理数据的方法和装置
本专利技术的实施方式涉及数据挖掘
,更具体地,本专利技术的实施方式涉及一种预处理数据的方法、一种预处理数据的装置、一种设备以及一种计算机可读存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。数据预处理(datapreprocessing)是指在主要处理之前对数据进行的一些处理。现实世界中的数据大体上都是不完整、不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量,产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。数据预处理可以是对所收集的数据进行分类或分组前所做的审核、筛选、排序等必要的处理。这些数据预处理技术在数据挖掘之前使用,大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。现有技术存在如下两种数据预处理方式:一种是直接从数据源逐条加载处理;另一种是采用Hadoop等大数据技术进行数据处理。对于逐条加载的数据预处理方式,其处理效率低,且随着数据量的增长,处理效率下降则更加明显,此外,这种数据处理方式难以扩展;采用Hadoop等大数据技术进行数据处理,虽然处理效率高,但基于Hadoop分布式程序的开发和运维成本也随之增高。
技术实现思路
本专利技术旨在平衡数据处理效率、系统扩展性以及开发运维成本,在不额外增加运维成本的情况下,提升数据预处理的效率,增强数据预处理模块的可拓展性。为实现上述目标,本专利技术的实施方式期望提供一种预处理数据的方法、一种预处理数据的装置、一种设备以及一种计算机可读存储介质。在本专利技术实施方式的第一方面中,提供了一种预处理数据的方法,包括:提取源数据集的一个特征变量;根据所述特征变量确定源数据集的特征区间;将特征区间分成多个子特征区间;处理属于所述多个子特征区间的数据。在本专利技术的一个实施例中,所述特征变量是源数据集中数据共有的特征。在本专利技术的另一实施例中,所述多个子特征区间是均等长度的。在本专利技术的又一个实施例中,所述处理属于所述多个子特征区间的数据是同时进行的。在本专利技术的再一个实施例中,所述一种预处理数据的方法还包括:将处理后的数据存入目标位置。在本专利技术的再一个实施例中,所述一种预处理数据的方法还包括:校验源数据集和目标位置数据的一致性。在本专利技术实施方式的第二方面中,提供了一种预处理数据的装置,包括:特征变量模块,用于提取源数据集的一个特征变量;特征区间模块,用于根据所述特征变量确定源数据集的特征区间;子特征区间模块,用于将特征区间分成多个子特征区间;数据处理模块,用于处理属于所述多个子特征区间的数据。在本专利技术的一个实施例中,所述特征变量是源数据集中数据共有的特征。在本专利技术的另一实施例中,所述多个子特征区间是均等长度的。在本专利技术的又一个实施例中,所述处理属于所述多个子特征区间的数据是同时进行的。在本专利技术的再一个实施例中,所述一种预处理数据的装置还包括:存储模块,用于将处理后的数据存入目标位置。在本专利技术的再一个实施例中,所述一种预处理数据的装置还包括:校验模块,用于校验源数据集和目标位置数据的一致性。在本专利技术实施方式的第三方面中,提供了一种设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现如前文所述的任意一种方法。在本专利技术实施方式的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能够实现如前文所述的任意一种方法。根据本专利技术实施方式的一种预处理数据的方法、一种预处理数据的装置、一种设备以及一种计算机可读存储介质,在不额外增加运维成本的情况下,提升了数据预处理的效率,在源数据集数量上升时,仅需增加部分预处理模块就能够快速地进行拓展。本专利技术提供的技术方案没有直接对源数据集数据进行直接处理,而是提出了特征变量模型,将源数据集裁剪成并不相交的若干子数据集,通过分布式缓存,解耦了源数据集和预处理模块,从而方便预处理模块的动态扩展,最终极大提高了预处理数据的效率,降低了整个系统的运维成本。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了根据本专利技术一实施方式的一种预处理数据的方法的流程图;图2示意性地示出了根据本专利技术一实施方式的一种预处理数据的装置的结构示意图;图3示意性地示出了根据本专利技术一实施方式的一种设备的结构示意图;图4示意性地示出了根据本专利技术一实施方式的一种计算机可读存储介质的示意图。在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品等。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。根据本专利技术的实施方式,提出了一种预处理数据的方法、一种预处理数据的装置、一种设备以及一种计算机可读存储介质。下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。本专利技术人认识到,现有技术的两种数据预处理方式存在着重大缺陷,其直接对数据采取处理操作,要么处理效率低、难以拓展,要么开发运维成本高。本专利技术提供的数据预处理技术方案没有直接对源数据集数据进行直接处理,而是提出了特征变量模型,将源数据集裁剪成并不相交的若干子数据集,通过分布式缓存,解耦了源数据集和预处理模块,再由多个预处理模块多线程并行获取缓存中的子数据集并进行预处理操作,从而方便预处理模块的动态扩展并提升数据预处理的速度。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。根据本专利技术实施方式,可以实现本专利技术的应用场景包括数据挖掘这一大的场景,更具体地,本专利技术的应用场景是数据预处理。示例性方法下面参考图1来描述根据本专利技术示例性实施方式的一种预处理数据的方法。需要注意的是,上述应用场景仅是为了便于理解本专利技术的精神和原理而示出,本专利技术的实施方式在此方面不受任何限制。相反,本专利技术的实施方式可以应用于适用的任何场景。图1示意性地示出了根据本专利技术一实施例的一种预处理数据的方法的流程图。该方法通常需要借助计算机、智能终端等类似设备实现。具体地,该预处理数据的方法可以包括:S110,提取源数据集的一个特征变量。在数据处理过程中,对于一个待处理的源数据集而言,其具有多个考量分析的维度。例如,作为源数据集的2018年7月21日全国火车票信息,其具有1万条火车票数据信息。在数据处理时,可以从始发站、终到站、出发时间、终到时间、全程历时、票面价格以及车座等次等多个维度对其进行分析。在本专利技术中,上述任一个维度都可以作为该源数据集的特征变量。一般情况下,一个特征变量是源数据集中各条数本文档来自技高网...

【技术保护点】
1.一种预处理数据的方法,其特征在于,包括:提取源数据集的一个特征变量;根据所述特征变量确定源数据集的特征区间;将特征区间分成多个子特征区间;处理属于所述多个子特征区间的数据。

【技术特征摘要】
1.一种预处理数据的方法,其特征在于,包括:提取源数据集的一个特征变量;根据所述特征变量确定源数据集的特征区间;将特征区间分成多个子特征区间;处理属于所述多个子特征区间的数据。2.如权利要求1所述的方法,其特征在于,所述特征变量是源数据集中数据共有的特征。3.如权利要求1所述的方法,其特征在于,所述多个子特征区间是均等长度的。4.如权利要求1-3所述的方法,其特征在于,所述处理属于所述多个子特征区间的数据是同时进行的。5.如权利要求4所述的方法,其特征在于,还包括:将处理后的数据存入目标位置。6.如权利要求5所述的方法,其特征在于,还包括:校验源数据集和目标位置数据的一致性。7.一种预处理数据的装置,其特征在于,包括:特征变量模块,用于提取源数据集的一个特征变量;特征区间模块,用于根据所述特征变量确定源数据集的特征区间;子特征区间模块,用于将特征区间分成多个子特征区间;...

【专利技术属性】
技术研发人员:胡飞
申请(专利权)人:宜人恒业科技发展北京有限公司普信恒业科技发展北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1