【技术实现步骤摘要】
数据清洗平台
[0001]本专利技术涉及数据清洗
,特别涉及一种数据清洗平台。
技术介绍
[0002]目前,数据中心业务为核心的综合性信息化企业越来越多,全国大规模的数据中心产业愈渐增多。数据中心服务作为数据发展的基础,在满足IT行业日益增长的互联网数据中心(IDC)需求的同时,也逐步进军迅速兴起的云计算和物联网领域,逐步打造成国际一流、国内顶尖的数据存储中心,国家机构和企事业单位数据灾备中心,增值信息服务和高新技术应用的孵化、研发、生产基地。涉及专业数据中心机房区、信息外包服务区、核心技术研发区、通信与信息产业创新区、行政办公区、生活配套区等功能区块,数据清洗是整个数据发展必不可少的环节,其对数据的可用性提供了极大地保障。
技术实现思路
[0003]本专利技术提供一种据清洗平台,用以解决数据庞杂、冗余造成的数据处理难度增高、数据存储占用扩大的情况。
[0004]本专利技术提供了一种据清洗平台,包括:
[0005]整理模块:用于根据数据属性,对获取的数据进行数据分层处理,获取第一数据;
[0006]清洗模块:用于检测第一数据的类别,获取类别信息,根据所述类别信息将第一数据进行分类清洗,获得第二数据;
[0007]复核模块:用于对第一数据与第二数据进行匹配验证,获得验证结果;其中,
[0008]当所述匹配验证不一致时,则进行数据关联;
[0009]当所述匹配验证一致时,则清洗完成。
[0010]作为本技术方案的一种实施例,在于所述整理模块包括 ...
【技术保护点】
【技术特征摘要】
1.一种数据清洗平台,其特征在于包括:整理模块:用于根据数据属性,对获取的数据进行数据分层处理,获取第一数据;清洗模块:用于检测第一数据类别,获取类别信息,根据所述类别信息将第一数据进行分类清洗,获得第二数据;复核模块:用于对第一数据与第二数据进行匹配验证,获得验证结果;其中,当所述匹配验证不一致时,则进行数据关联;当所述匹配验证一致时,则清洗完成。2.如权利要求1所述的一种数据清洗平台,其特征在于,所述整理模块包括:数据分层单元:用于提取获取数据信息的信息属性,并根据所述信息属性进行分层整理,获取第一数据;其中,所述信息属性包括:字段释义、数据来源、信息数值、类别信息;抽样检测单元:用于在第一数据中随机选取预设范围的数据进行分层整理,获取局部第一数据,并与所述第一数据进行校正检测,获取检测结果。3.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块包括:类别检测单元:用于检测第一数据的数据类别,根据所述数据类别将其进行分类清洗,获得第二数据;其中,所述数据类别包括:缺失值数据、格式数据、逻辑数据、非需求数据;所述第二数据包括:缺失值数据、格式数据、逻辑校正数据、去值数据。4.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块包括:缺失值清洗单元:用于根据缺失值清洗方法将缺失值部分进行筛选和补充,获取缺失值数据;格式清洗单元:用于将数据的格式进行标记,获取格式类型,并与数据的数值类型进行对比,判断格式的一致性;其中,当格式一致时,获取格式数据;当格式不一致时,对所述数值类型校正到与格式类型一致。5.如权利要求1所述的一种数据清洗平台,其特征在于,所述清洗模块还包括:逻辑清洗单元:用于根据数据的逻辑性对数据进行逻辑校正处理,获取逻辑校正数据;其中,所述逻辑校正处理包括:去重处理、不合理值校正处理、数据矛盾校正处理;非需求清洗单元:用于根据初始数值的属性分类检测数据,获取第一非需求值,去除所述第一非需求值,获取去值数据,对所述去值数据进行判断;其中,当去值数据满足数据的逻辑性和预设的数据大小,则去值成功;当去值数据不满足数据的逻辑性和预设的数据大小,则删除去值数据。6.如权利要求1所述的一种数据清洗平台,其特征在于,所述复核模块包括:匹配单元:用于根据数据值,对第一数据和第二数据进行匹配;其中,当第一数据和第二数据的数据值一致时,则匹配成功,进行验证;当第一数据和第二数据的数据值不一致时,则匹配失败;验证单元:用于根据数据来源对第一数据值和第二数据值进行相关性验证;其中,当第一数据和第二数据的数据来源一致时,完成清洗;
当第一数据和第二数据的数据来源不一致时,对数据进行关联,完成清洗。7.如权利要求4所述的一种数据清洗平台,其特征在于,所述缺失值清洗方法包括以下步骤:步骤S1:将数据字段进行分段,并计算字段缺失值比例,确认缺失值范围;...
【专利技术属性】
技术研发人员:刘坤,
申请(专利权)人:北京银盾泰安网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。