数据清洗整合方法及系统技术方案

技术编号:17363754 阅读:50 留言:0更新日期:2018-02-28 13:53
本发明专利技术公开了一种数据清洗整合方法及系统,所述方法包括如下步骤:获取待清洗的数据;对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。本发明专利技术提供的技术方案能够对公式进行处理的优点。

Method and system of data cleaning and integration

The invention discloses a data cleaning and system integration method, the method comprises the following steps: acquiring the data to be cleaned; identify the formula of data and data cleaning data with non formula; the formula formula editor called identification data and converted into non-public type format; the format of the document and non formula non formula data execution data cleaning data obtained after cleaning, after cleaning will restore the non formula format into the formula editor format, inserted into the corresponding position to complete the cleaning of the data. The technical scheme provided by the present invention can handle the advantages of the formula.

【技术实现步骤摘要】
数据清洗整合方法及系统
本专利技术涉及数据处理领域,尤其涉及一种数据清洗整合方法及系统。
技术介绍
数据清洗(Datacleaning)–对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同。现有的数据清洗无法对公式进行整合调整。
技术实现思路
本申请提供一种数据清洗整合方法。其解决现有技术的技术方案无法清洗公式的缺点。一方面,提供一种数据清洗整合方法,所述方法包括如下步骤:获取待清洗的数据;对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。可选的,所述调用公式编辑器识别该公式数据并转换成非公式格式的文档,具体包括:提取该公式数据中除了符号以外的数据以及符号的顺序,将符号以外的数据转换成非公式数据。可选的,所述对待清洗的数据进行识别确定公式数据以及非公式数据,包括:对该数据进行识别确定数据的格式,如该格式为非文档格式,确定为公式数据。可选的,所述方法还包括:所述数据清理包括:无效值和缺失值的处理或一致性检查。第二方面,提供一种数据清洗整合系统,所述系统包括:获取单元,用于获取待清洗的数据;处理单元,用于对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。可选的,所述处理单元,还用提取该公式数据中除了符号以外的数据以及符号的顺序,将符号以外的数据转换成非公式数据。可选的,所述处理单元,具体用于对该数据进行识别确定数据的格式,如该格式为非文档格式,确定为公式数据。可选的,所述数据清理包括:无效值和缺失值的处理或一致性检查。第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行第一方面所述的方法。一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面所述的方法。本专利技术提供的技术方案对公式进行转换成非公式数据,然后清洗以后在转换成公式数据,从而实现对公式数据执行清洗。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一较佳实施方式提供的一种数据清洗整合方法的流程图;图2为本专利技术第二较佳实施方式提供的一种数据清洗整合系统的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1是本专利技术第一较佳实施方式提出的一种数据清洗整合方法,该方法如图1所示,包括如下步骤:步骤S101、获取待清洗的数据;步骤S102、对待清洗的数据进行识别确定公式数据以及非公式数据;上述步骤的实现方法具体可以为,对该数据进行识别确定数据的格式,如该格式为非文档格式,确定为公式数据。。步骤S103、调用公式编辑器识别该公式数据并转换成非公式格式的文档。上述步骤的实现方法可以为,提取该公式数据中除了符号以外的数据以及符号的顺序,将符号以外的数据转换成非公式数据。步骤S104、对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。上述清洗的数据可以采用的方法具体可以为:一致性检查一致性检查(consistencycheck)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。整例删除(casewisedeletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。变量删除(variabledeletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。成对删除(pairwisedeletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性本文档来自技高网...
数据清洗整合方法及系统

【技术保护点】
一种数据清洗整合方法,其特征在于,所述方法包括如下步骤:获取待清洗的数据;对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。

【技术特征摘要】
1.一种数据清洗整合方法,其特征在于,所述方法包括如下步骤:获取待清洗的数据;对待清洗的数据进行识别确定公式数据以及非公式数据;调用公式编辑器识别该公式数据并转换成非公式格式的文档;对该非公式格式的文档以及非公式数据执行数据清洗得到清洗后的数据,将清洗后的非公式格式的文档还原成公式编辑器格式后,插入到对应位置以完成对整个数据的清洗。2.根据权利要求1所述的方法,其特征在于,所述调用公式编辑器识别该公式数据并转换成非公式格式的文档,具体包括:提取该公式数据中除了符号以外的数据以及符号的顺序,将符号以外的数据转换成非公式数据。3.根据权利要求1所述的方法,其特征在于,所述对待清洗的数据进行识别确定公式数据以及非公式数据,包括:对该数据进行识别确定数据的格式,如该格式为非文档格式,确定为公式数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述数据清理包括:无效值和缺失值的处理或一致性检查。5.一种数据清洗整合系统,其特征在于,所述系统包括:获取单元,用于获取待清洗的数据;处理单元,用于对待清洗的数据进行...

【专利技术属性】
技术研发人员:高霞光刘军
申请(专利权)人:深圳汇生通科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1