一种数据清洗方法及装置制造方法及图纸

技术编号：35261152 阅读：23 留言：0更新日期：2022-10-19 10:20

本发明专利技术提出了一种数据清洗方法及装置，包括：步骤S1，设置清洗规则节点，其中，所述清洗规则节点用于表现数据流转过程中的筛选标准；步骤S2，获取待清洗数据，包括：根据对数据血缘关系分析，获得待清洗数据中的待清洗数据库、表和字段；步骤S3，接入待过滤的数据，包括：将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚，再从主节点流出向数据流出节点扩散；步骤S4，新建数据库，包括：将清洗处理得到的数据录入建立的数据库中，并对数据库进行优化，得到原始数据库。得到原始数据库。得到原始数据库。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法及装置

[0001]本专利技术涉及数据处理
，特别涉及一种数据清洗方法及装置。

技术介绍

[0002]数据血缘属于数据治理中的一个概念，是在数据溯源的过程中找到相关数据之间的联系，它是一个逻辑概念，血缘分析是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯，其中大数据血缘是指数据产生的链路。
[0003]在数据的处理过程中，从数据源头到最终的数据生成，每个环节都可能会导致出现数据质量的问题，可能在某个环节的数据处理中，本专利技术对数据进行了一些不恰当的处理，导致后续环节的数据质量变得糟糕。因此，需要提出一种数据清洗方法及装置，以解决上述存在的技术问题。

技术实现思路

[0004]本专利技术的目的旨在至少解决所述技术缺陷之一。
[0005]为此，本专利技术的目的在于提出一种数据清洗方法，以解决
技术介绍
中所提到的问题，克服现有技术中存在的不足。
[0006]为了实现上述目的，本专利技术一方面的实施例提供一种数据清洗方法，包括如下步骤：
[0007]步骤S1，设置清洗规则节点，其中，所述清洗规则节点用于表现数据流转过程中的筛选标准；
[0008]步骤S2，获取待清洗数据，包括：根据对数据血缘关系分析，获得待清洗数据中的待清洗数据库、表和字段；
[0009]步骤S3，接入待过滤的数据，包括：将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚，再从主节点流出向数据流出节点扩散；
[0010]步骤S4，新建数据库，包

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括如下步骤：步骤S1，设置清洗规则节点，其中，所述清洗规则节点用于表现数据流转过程中的筛选标准；步骤S2，获取待清洗数据，包括：根据对数据血缘关系分析，获得待清洗数据中的待清洗数据库、表和字段；步骤S3，接入待过滤的数据，包括：将所述待清洗数据库、表和字段从数据流入节点出来向主节点汇聚，再从主节点流出向数据流出节点扩散；步骤S4，新建数据库，包括：将清洗处理得到的数据录入建立的数据库中，并对数据库进行优化，得到原始数据库。2.如权利要求1所述的数据清洗方法，其特征在于，在所述步骤S1中，所述清洗规则节点的筛选标准：量的数据分布在不同的位置，每个位置对数据质量的要求均不同，数据接收方根据自己对数据的要求过滤接入的数据，以形成数据标准，根据上述标准进行数据清洗。3.如权利要求1所述的数据清洗方法，其特征在于，所述获取待清洗数据包括转换规则节点和数据归档销毁规则节点，转换规则节点采用特殊标记表示，位于数据流转线路上，用于表现数据流转过程中发生的变化和变换。4.如权利要求3所述的数据清洗方法，其特征在于，所述数据归档销毁规则节点，当数据不再具备使用价值，或者归档或者直接销毁，设计条件判断数据是否还具备使用价值，进而归档或销毁。5.如权利要求1所述的数据清洗方法，其特征在于，所述获得待清洗数据中待清洗数据库、表和字段是数据的存储结构。6.如权利要求1所述的数据清洗方法，其特征在于，所述数据血缘关系分析中血缘关系层次不同，数据信息不同，所有层次只有所有者的信息，其他的层次则...

【专利技术属性】
技术研发人员：吴江，樊小东，符洪洋，张凯翔，王志方，张海霞，郑征，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人