数据清洗平台制造技术

技术编号:32512666 阅读:12 留言:0更新日期:2022-03-02 11:00
本发明专利技术提供了一种数据清洗平台,包括:整理模块:用于根据数据属性,对获取的数据进行数据分层处理,获取第一数据;清洗模块:用于检测第一数据类别,获取类别信息,根据所述类别信息将第一数据进行分类清洗,获得第二数据;复核模块:用于对第一数据与第二数据进行匹配验证,获得验证结果;其中,当所述匹配验证不一致时,则进行数据关联;当所述匹配验证一致时,则清洗完成,通过清洗后的复核验证,保证了数据清洗的清洗效果,也提高了数据安全性。也提高了数据安全性。也提高了数据安全性。

【技术实现步骤摘要】
数据清洗平台


[0001]本专利技术涉及数据清洗
,特别涉及一种数据清洗平台。

技术介绍

[0002]目前,数据中心业务为核心的综合性信息化企业越来越多,全国大规模的数据中心产业愈渐增多。数据中心服务作为数据发展的基础,在满足IT行业日益增长的互联网数据中心(IDC)需求的同时,也逐步进军迅速兴起的云计算和物联网领域,逐步打造成国际一流、国内顶尖的数据存储中心,国家机构和企事业单位数据灾备中心,增值信息服务和高新技术应用的孵化、研发、生产基地。涉及专业数据中心机房区、信息外包服务区、核心技术研发区、通信与信息产业创新区、行政办公区、生活配套区等功能区块,数据清洗是整个数据发展必不可少的环节,其对数据的可用性提供了极大地保障。

技术实现思路

[0003]本专利技术提供一种据清洗平台,用以解决数据庞杂、冗余造成的数据处理难度增高、数据存储占用扩大的情况。
[0004]本专利技术提供了一种据清洗平台,包括:
[0005]整理模块:用于根据数据属性,对获取的数据进行数据分层处理,获取第一数据;
[0006]清洗模块:用于检测第一数据的类别,获取类别信息,根据所述类别信息将第一数据进行分类清洗,获得第二数据;
[0007]复核模块:用于对第一数据与第二数据进行匹配验证,获得验证结果;其中,
[0008]当所述匹配验证不一致时,则进行数据关联;
[0009]当所述匹配验证一致时,则清洗完成。
[0010]作为本技术方案的一种实施例,在于所述整理模块包括
[0011]数据分层单元:用于提取获取数据信息的信息属性,并根据所述信息属性进行分层整理,获取第一数据;其中,
[0012]所述信息属性包括:字段释义、数据来源、信息数值、类别信息;
[0013]抽样检测单元:用于在第一数据中随机选取预设范围的数据进行分层整理,获取局部第一数据,并与所述第一数据进行校正检测,获取检测结果。
[0014]作为本技术方案的一种实施例,在于所述清洗模块包括:
[0015]类别检测单元:用于检测第一数据的数据类别,根据所述数据类别将其进行分类清洗,获得第二数据;其中,
[0016]所述数据类别包括:缺失值数据、格式数据、逻辑数据、非需求数据;
[0017]所述第二数据包括:缺失值数据、格式数据、逻辑校正数据、去值数据。
[0018]作为本技术方案的一种实施例,在于所述清洗模块包括:
[0019]缺失值清洗单元:用于根据缺失值清洗方法将缺失值部分进行筛选和补充,获取缺失值数据;
[0020]格式清洗单元:用于将数据的格式进行标记,获取格式类型,并与数据的数值类型进行对比,判断格式的一致性;其中,
[0021]当格式一致时,获取格式数据;
[0022]当格式不一致时,对所述数值类型校正到与格式类型一致。
[0023]作为本技术方案的一种实施例,在于所述清洗模块还包括:
[0024]逻辑清洗单元:用于根据数据的逻辑性对数据进行逻辑校正处理,获取逻辑校正数据;其中,
[0025]所述逻辑校正处理包括:去重处理、不合理值校正处理、数据矛盾校正处理;
[0026]非需求清洗单元:用于根据初始数值的属性分类检测数据,获取第一非需求值,去除所述第一非需求值,获取去值数据,对所述去值数据进行判断;其中,
[0027]当去值数据满足数据的逻辑性和预设的数据大小,则去值成功;
[0028]当去值数据不满足数据的逻辑性和预设的数据大小,则删除去值数据。
[0029]作为本技术方案的一种实施例,在于所述复核模块包括:
[0030]匹配单元:用于根据数据值,对第一数据和第二数据进行匹配;其中,
[0031]当第一数据和第二数据的数据值一致时,则匹配成功,进行验证;
[0032]当第一数据和第二数据的数据值不一致时,则匹配失败;
[0033]验证单元:用于根据数据来源对第一数据值和第二数据值进行相关性验证;其中,
[0034]当第一数据和第二数据的数据来源一致时,完成清洗;
[0035]当第一数据和第二数据的数据来源不一致时,对数据进行关联,完成清洗。
[0036]作为本技术方案的一种实施例,在于所述缺失值清洗方法包括以下步骤:
[0037]步骤S1:将数据字段进行分段,并计算字段缺失值比例,确认缺失值范围;
[0038]步骤S2:根据缺失值范围,删掉缺失值比例大于预设比例的字段;
[0039]步骤S3:根据缺失值大小,对剩下的字段进行缺失内容补充处理,获取缺失值数据。
[0040]作为本技术方案的一种实施例,在于数据质量模块,包括:
[0041]数据质量检测单元:用于检测数据的质量属性,并进行质量修正;其中,
[0042]所述质量属性包括:数据完整性、数据规则性;
[0043]质量修正单元包括:数据完整性修正、数据规则修正;其中,
[0044]所述数据完整性修正包括:用于确认缺口数据,并判断所述缺口数据的数据属性;其中,
[0045]当所述缺口数据为可补全数据时,则对缺口数据进行补全;
[0046]当所述缺口数据为不可补全数据时,则去除缺口数据,将所述去除缺口数据转移到预设数据库中;
[0047]所述数据规则修正包括:用于根据预设的数据值规则和数据类型规则,检测出不符合预设规则的待处理数据,对所述待处理数据进行规则修正,并进行修正检测;其中
[0048]当待处理数据修正成功时,则完成修正;
[0049]当待处理数据修正失败时,则进行标记,并进行人工修正。
[0050]作为本技术方案的一种实施例,在于所述去重处理还包括:
[0051]排序功能:用于对原数据进行筛选,获取重复数据项,判断排序方法,使用所述排
序方法对重复数据项进行排序,获取排序数据;其中,
[0052]所述排序方法包括:插入排序、冒泡排序、堆排序、归并排序;
[0053]所述插入排序包括:用于将获取的原数据进行排序,获取第一排序数据,通过插入所述重复数据项再次进行排序,获取第二排序数据;
[0054]计算相似度功能:用于计算第一排序数据和第二排序数据的相似度,根据所述相似度,进行判断;其中,
[0055]当所述相似度小于预设相似度,则获取的重复数据项不构成重复数据,可以继续使用;
[0056]当所述相似度大于等于预设相似度,则获取的重复数据项构成重复数据,进行去重校正;其中,
[0057]所述去重校正包括:将重复数据进行校验,根据校验结果进行校正;其中,
[0058]当所述校验结果为重复数据在预设保护范围内时,则对所述重复数据进行备份和人工处理;
[0059]当所述校验结果为重复数据不在预设保护范围内时,则对所述重复数据进行删除处理。
[0060]作为本技术方案的一种实施例,在于所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗平台,其特征在于包括:整理模块:用于根据数据属性,对获取的数据进行数据分层处理,获取第一数据;清洗模块:用于检测第一数据类别,获取类别信息,根据所述类别信息将第一数据进行分类清洗,获得第二数据;复核模块:用于对第一数据与第二数据进行匹配验证,获得验证结果;其中,当所述匹配验证不一致时,则进行数据关联;当所述匹配验证一致时,则清洗完成。2.如权利要求1所述的一种数据清洗平台,其特征在于,所述整理模块包括:数据分层单元:用于提取获取数据信息的信息属性,并根据所述信息属性进行分层整理,获取第一数据;其中,所述信息属性包括:字段释义、数据来源、信息数值、类别信息;抽样检测单元:用于在第一数据中随机选取预设范围的数据进行分层整理,获取局部第一数据,并与所述第一数据进行校正检测,获取检测结果。3.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块包括:类别检测单元:用于检测第一数据的数据类别,根据所述数据类别将其进行分类清洗,获得第二数据;其中,所述数据类别包括:缺失值数据、格式数据、逻辑数据、非需求数据;所述第二数据包括:缺失值数据、格式数据、逻辑校正数据、去值数据。4.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块包括:缺失值清洗单元:用于根据缺失值清洗方法将缺失值部分进行筛选和补充,获取缺失值数据;格式清洗单元:用于将数据的格式进行标记,获取格式类型,并与数据的数值类型进行对比,判断格式的一致性;其中,当格式一致时,获取格式数据;当格式不一致时,对所述数值类型校正到与格式类型一致。5.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块还包括:逻辑清洗单元:用于根据数据的逻辑性对数据进行逻辑校正处理,获取逻辑校正数据;其中,所述逻辑校正处理包括:去重处理、不合理值校正处理、数据矛盾校正处理;非需求清洗单元:用于根据初始数值的属性分类检测数据,获取第一非需求值,去除所述第一非需求值,获取去值数据,对所述去值数据进行判断;其中,当去值数据满足数据的逻辑性和预设的数据大小,则去值成功;当去值数据不满足数据的逻辑性和预设的数据大小,则删除去值数据。6.如权利要求1所述的一种数据清洗平台,其特征在于,所述复核模块包括:匹配单元:用于根据数据值,对第一数据和第二数据进行匹配;其中,当第一数据和第二数据的数据值一致时,则匹配成功,进行验证;当第一数据和第二数据的数据值不一致时,则匹配失败;验证单元:用于根据数据来源对第一数据值和第二数据值进行相关性验证;其中,当第一数据和第二数据的数据来源一致时,完成清洗;
当第一数据和第二数据的数据来源不一致时,对数据进行关联,完成清洗。7.如权利要求4所述的一种数据清洗平台,其特征在于,所述缺失值清洗方法包括以下步骤:步骤S1:将数据字段进行分段,并计算字段缺失值比例,确认缺失值范围;...

【专利技术属性】
技术研发人员:刘坤
申请(专利权)人:北京银盾泰安网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1