一种数据清洗方法及装置制造方法及图纸

技术编号:35261152 阅读:23 留言:0更新日期:2022-10-19 10:20
本发明专利技术提出了一种数据清洗方法及装置,包括:步骤S1,设置清洗规则节点,其中,所述清洗规则节点用于表现数据流转过程中的筛选标准;步骤S2,获取待清洗数据,包括:根据对数据血缘关系分析,获得待清洗数据中的待清洗数据库、表和字段;步骤S3,接入待过滤的数据,包括:将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚,再从主节点流出向数据流出节点扩散;步骤S4,新建数据库,包括:将清洗处理得到的数据录入建立的数据库中,并对数据库进行优化,得到原始数据库。得到原始数据库。得到原始数据库。

【技术实现步骤摘要】
一种数据清洗方法及装置


[0001]本专利技术涉及数据处理
,特别涉及一种数据清洗方法及装置。

技术介绍

[0002]数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯,其中大数据血缘是指数据产生的链路。
[0003]在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致出现数据质量的问题,可能在某个环节的数据处理中,本专利技术对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,需要提出一种数据清洗方法及装置,以解决上述存在的技术问题。

技术实现思路

[0004]本专利技术的目的旨在至少解决所述技术缺陷之一。
[0005]为此,本专利技术的目的在于提出一种数据清洗方法,以解决
技术介绍
中所提到的问题,克服现有技术中存在的不足。
[0006]为了实现上述目的,本专利技术一方面的实施例提供一种数据清洗方法,包括如下步骤:
[0007]步骤S1,设置清洗规则节点,其中,所述清洗规则节点用于表现数据流转过程中的筛选标准;
[0008]步骤S2,获取待清洗数据,包括:根据对数据血缘关系分析,获得待清洗数据中的待清洗数据库、表和字段;
[0009]步骤S3,接入待过滤的数据,包括:将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚,再从主节点流出向数据流出节点扩散;
[0010]步骤S4,新建数据库,包括:将清洗处理得到的数据录入建立的数据库中,并对数据库进行优化,得到原始数据库。
[0011]由上述任一方案优选的是,在所述步骤S1中,所述清洗规则节点的筛选标准:量的数据分布在不同的位置,每个位置对数据质量的要求均不同,数据接收方根据自己对数据的要求过滤接入的数据,以形成数据标准,根据上述标准进行数据清洗。
[0012]由上述任一方案优选的是,所述获取待清洗数据包括转换规则节点和数据归档销毁规则节点,转换规则节点采用特殊标记表示,位于数据流转线路上,用于表现数据流转过程中发生的变化和变换,
[0013]由上述任一方案优选的是,所述数据归档销毁规则节点,当数据不再具备使用价值,或者归档或者直接销毁,设计条件判断数据是否还具备使用价值,进而归档或销毁。
[0014]由上述任一方案优选的是,所述获得待清洗数据中待清洗数据库、表和字段是数据的存储结构。
[0015]由上述任一方案优选的是,所述数据血缘关系分析中血缘关系层次不同,数据信息不同,所有层次只有所有者的信息,其他的层次则包括所有者信息和数据层次信息或者终端信息。
[0016]本专利技术另一方面的实施例提供一种数据清洗装置,包括:获取模块、处理模块、数据清洗模块、录入模块,其中,
[0017]所述获取模块、所述处理模块、所述数据清洗模块、所述录入模块和docker容器依次电性安装在电路板上,且所述电路板安装在壳框内,所述壳框顶部表面设置有三个插接端口;
[0018]所述获取模块用于设置清洗规则节点,并获取待清洗数据,根据所述待清洗数据中噪声数据分布的分析,获得所述待清洗数据中的待清洗数据库、表和字段;
[0019]所述处理模块用于将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚,再从主节点流出向数据流出节点扩散;
[0020]所述数据清洗模块用于对待清洗数据库、表和字段进行数据清洗;
[0021]所述录入模块用于将清洗处理得到的数据录入建立的数据库中,并对数据库进行优化,得到原始数据库。
[0022]由上述任一方案优选的是,还包括:docker容器和docker镜像,所述docker容器电性安装在电路板上。
[0023]由上述任一方案优选的是,所述docker为由docker镜像创建的运行实例,其中,所述docker容器执行启动、停止和删除操作,每个docker容器之间相互隔离,所述docker容器中运行特定的运用,包括:特定应用的代码和所需的依赖文件。
[0024]由上述任一方案优选的是,所述docker镜像由多层的系统文件组成,所述docker镜像基于docker文件构建,包括:多条密令的描述文件,每条命令均会对基础文件系统创建新的层次结构。
[0025]本专利技术实施例的数据清洗方法及装置,能够对数据血缘中的初始数据进行筛分过滤,采用清洗规则节点用来表现数据流转过程中的筛选标准的方式,将数据按照筛选标准进行清洗,获得精准新数据,同时对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次,进而提高了数据质量。
[0026]本专利技术结构设计合理,能够对数据血缘中的初始数据进行筛分过滤,采用清洗规则节点用来表现数据流转过程中的筛选标准的方式,将数据按照筛选标准进行清洗,获得精准新数据,同时对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次,进而提高了数据质量。
[0027]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0028]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0029]图1为根据本专利技术实施例的数据清洗方法的流程图;
[0030]图2为根据本专利技术实施例的数据清洗方法的示意图;
[0031]图3为根据本专利技术实施例的数据清洗装置的结构图;
[0032]图4为根据本专利技术实施例的数据清洗装置的示意图。
[0033]附图标记:1、获取模块;2、处理模块;3、数据清洗模块;4、录入模块;5、docker容器;6、壳框;7、插接端口;8、电路板。
具体实施方式
[0034]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0035]下面对本专利技术涉及的数据血缘分析进行说明。
[0036]数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯,其中大数据血缘是指数据产生的链路。
[0037]在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致出现数据质量的问题。例如本专利技术数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到本专利技术的目标表,它的数据质量也是不高的。也有可能在某个环节的数据处理中,本专利技术对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,对于数据的血缘关系,本专利技术要确保每个环节都要注意数据质量的检测和处理,那么本专利技术后续数据才会有很高的数据质量。...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括如下步骤:步骤S1,设置清洗规则节点,其中,所述清洗规则节点用于表现数据流转过程中的筛选标准;步骤S2,获取待清洗数据,包括:根据对数据血缘关系分析,获得待清洗数据中的待清洗数据库、表和字段;步骤S3,接入待过滤的数据,包括:将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚,再从主节点流出向数据流出节点扩散;步骤S4,新建数据库,包括:将清洗处理得到的数据录入建立的数据库中,并对数据库进行优化,得到原始数据库。2.如权利要求1所述的数据清洗方法,其特征在于,在所述步骤S1中,所述清洗规则节点的筛选标准:量的数据分布在不同的位置,每个位置对数据质量的要求均不同,数据接收方根据自己对数据的要求过滤接入的数据,以形成数据标准,根据上述标准进行数据清洗。3.如权利要求1所述的数据清洗方法,其特征在于,所述获取待清洗数据包括转换规则节点和数据归档销毁规则节点,转换规则节点采用特殊标记表示,位于数据流转线路上,用于表现数据流转过程中发生的变化和变换。4.如权利要求3所述的数据清洗方法,其特征在于,所述数据归档销毁规则节点,当数据不再具备使用价值,或者归档或者直接销毁,设计条件判断数据是否还具备使用价值,进而归档或销毁。5.如权利要求1所述的数据清洗方法,其特征在于,所述获得待清洗数据中待清洗数据库、表和字段是数据的存储结构。6.如权利要求1所述的数据清洗方法,其特征在于,所述数据血缘关系分析中血缘关系层次不同,数据信息不同,所有层次只有所有者的信息,其他的层次则...

【专利技术属性】
技术研发人员:吴江樊小东符洪洋张凯翔王志方张海霞郑征
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1