基于DataPurge组件的数据自动清洗方法技术

技术编号:21140892 阅读:18 留言:0更新日期:2019-05-18 05:06
本发明专利技术公开了一种基于DataPurge组件的数据自动清洗方法,包括如下步骤:A)根据实际业务规则,在DataPurge组件中直接使用预定义清洗算法或自定义清洗算法规则,自动执行或执行过程进行人工中断,并生成报告日志或图形图像进行显示;B)根据所述报告日志,使用手工方式或重新更新定义清洗判断规则,修正清洗动作,执行后,再次生成报告日志进行归档;对于无法自动修正的问题,采用人工干预的方式作出适时调整。本发明专利技术能自动清洗数据处理的,可接入和解析多种商业数据库、工业实时数据和PLC存储器,自动化程度高,准确性和实效性好,可实现同框架下的其他应用组件的无缝对接,成本可控。

Data Automatic Cleaning Method Based on DataPurge Component

【技术实现步骤摘要】
基于DataPurge组件的数据自动清洗方法
本专利技术涉及数据处理领域,特别涉及一种基于DataPurge组件的数据自动清洗方法。
技术介绍
通常,数据清洗表示对已知有效数据集合进行查询检验的过程,是发现问题、纠正错误的必要步骤,是为有效数据集合中的数据提供信息一致性和完整性的重要手段。从字面含义上看,数据清洗的重点是“洗”,即将那些不符合规范、不满足实际要求的数据定位识别出来,按照业务流程或某些规范准则将错误数据进行修正或补缺。在数据清洗过程中,不符合要求的内容多称为“脏数据”,如:错误的异常结果、不完整的数据、停跳数据、重复数据、无效数据等;脏数据的表现形式多种多样,且发生的原因可能也是五花八门,按照某种统一的方式来处理(清洗)脏数据的方式可能并不可行。比如,现代城市中会有很多停车场,每个车场多会使用感应、射频或车牌识别等方式记录车辆的进出信息,通过配备的管理软件完成车辆的进出记录、收费、设备控制、车辆信息提取等功能。不同停车场可能会使用不同供应商(或生厂商)的产品,即便同一个停车场,随着规模或成本的变更,也可能会使用不同的数据采集方式和异构的数据存储结构来实现相同的停车系统功能。如此,存储不统一、数据标准不一致、应用模式不一样,使得同一个应用系统中的数据就有可能出现各种各样的问题,例如:收费金额异常、入口出口信息不一致、车牌比对不能正确识别等。传统的数据清洗方式或方法中,如:最简单的人工比对方法也可完成大多数同构或异构的数据检验、更正和补救。但缺点(或问题)往往也同样存在:数据清洗的实际效果不如所愿,需要人工干预且费时费力,清洗规则不是次次有效,清洗支出费用容易超出预算。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能自动清洗数据处理的,可接入和解析多种商业数据库、工业实时数据和PLC存储器,自动化程度高,准确性和实效性好,可实现同框架下的其他应用组件的无缝对接,成本可控的基于DataPurge组件的数据自动清洗方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于DataPurge组件的数据自动清洗方法,包括如下方式步骤:A)根据实际业务规则,在DataPurge组件中直接使用预定义清洗算法或单独自定义清洗算法规则,自动执行或执行过程进行人工中断,并生成报告日志或图形图像进行显示;B)根据所述报告日志,使用手工方式或重新定义清洗判断规则,重新修正清洗动作,执行后,再次生成报告日志进行归档;对于无法自动修正的问题,采用人工干预的方式作出适时调整。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,当相关的数据处于平均的分布状态时,所述DataPurge组件采用分组统计后取平均值的设定常量倍数来判断是否为异常数据。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,对于已经筛选出的异常数据,采用平均值代替异常值、忽略/删除异常值或人工修正的方式进行修正或处理。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,所述DataPurge组件中包含预定义或自定义的重复数据判断规则,所述自定义的重复数据判断规则从分析数据阶段即开始自动运行,采用先定义数据结构再填充实际数据的方式来完成重复数据的筛选。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,所述自定义的重复数据判断规则的执行流程包括如下过程:A')接入源数据集,解析元数据及关系,定义清洗规则所需的数据结构;B')获取某段时间内需要清洗的实际数据集合,按照所述数据结构写入中间层;C')在内存中开辟高速缓冲区,将所述中间层的数据写入内存缓冲区;D')在获取数据后的内存缓冲区中,通过异常处理、去重、补空值和去除噪点数据后,再一次回写磁盘。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,所述DataPurge组件按照数据清洗配置等级和数据关键性等级,使用全局量补充、配差平、补差法或删除法进行噪点修补或更改为实际数据;所述补差法包括随机补差、平均补差和热补差。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,所述DataPurge组件部署至AtomBaseFrame应用平台后,能无缝对接异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame组件,实现多种商业数据库、工业实时数据和PLC存储器的接入和解析,实现多种异构平台下的数据清洗和诊断。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,所述DataPurge组件清洗数据的方式包括清洗关联性和一致性、清洗缺失值、清洗错误、噪点和重复数据的清洗。在本专利技术所述的基于DataPurge组件的数据自动清洗方法中,根据清洗数据集可映射的图形图像输出分析方式至少包括柱形图、条图、折线图和雷达图。实施本专利技术的基于DataPurge组件的数据自动清洗方法,具有以下有益效果:可使用预定义或自定义的清洗算法规则,自动执行或执行过程进行人工中断,并生成报告日志或图形图像;自动清洗过程可迭代执行,迭代过程可重新更新定义清洗算法;支持多种格式的商业数据库、工业控制数据库系统和PLC存储器的接入,实现异构平台下的数据清洗和诊断;数据自动清洗方式多样,且支持人工修正和干预,清洗结果和实际接入数据系统物理隔离,在不影响现有应用系统或数据系统的前提下,仍可获取清洗后的中间数据结果集;在系统框架下,支持其他应用组件的无缝连接,清洗规则或过程可在系统框架实现复用,本专利技术能自动清洗数据处理的,可接入和解析多种商业数据库、工业实时数据和PLC存储器,自动化程度高,准确性和实效性好,可实现同框架下的其他应用组件的无缝对接,成本可控。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于DataPurge组件的数据自动清洗方法一个实施例中DataPurge组件的示意图;图2为所述实施例中数据自动清洗的框图;图3为所述实施例中基于DataPurge组件的数据自动清洗方法的流程图;图4为所述实施例中某停车场停车示例数据的直方图;图5为所述实施例中某停车场停车示例数据的雷达图;图6为所述实施例中自定义的重复数据判断规则的执行流程图;图7为所述实施例中停车场停车数据自动数据清洗的实时运行示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术基于DataPurge组件的数据自动清洗方法实施例中,DataPurge组件的示意图如图1所示。DataPurge组件是数据自动清洗服务组件,是AtomBaseFrame应用框架下用于自动化处理检测数据集中异常数据、无关数据、噪点、空缺等选项的专业组件工具,清理规则自定义,自动清洗处理准确性和实效性较高;DataPurg本文档来自技高网
...

【技术保护点】
1.一种基于DataPurge组件的数据自动清洗方法,其特征在于,包括如下步骤:A)根据实际业务规则,在DataPurge组件中直接使用预定义清洗算法或单独自定义清洗算法规则,自动执行或执行过程进行人工中断,并生成报告日志或图形图像进行显示;B)根据所述报告日志,使用手工方式或重新更新定义清洗判断规则,修正清洗动作,执行后,再次生成报告日志进行归档;对于无法自动修正的问题,采用人工干预的方式作出适时调整。

【技术特征摘要】
1.一种基于DataPurge组件的数据自动清洗方法,其特征在于,包括如下步骤:A)根据实际业务规则,在DataPurge组件中直接使用预定义清洗算法或单独自定义清洗算法规则,自动执行或执行过程进行人工中断,并生成报告日志或图形图像进行显示;B)根据所述报告日志,使用手工方式或重新更新定义清洗判断规则,修正清洗动作,执行后,再次生成报告日志进行归档;对于无法自动修正的问题,采用人工干预的方式作出适时调整。2.根据权利要求1所述的基于DataPurge组件的数据自动清洗方法,其特征在于,当相关的数据处于平均的分布状态时,所述DataPurge组件采用分组统计后取平均值的设定常量倍数来判断是否为异常数据。3.根据权利要求2所述的基于DataPurge组件的数据自动清洗方法,其特征在于,对于已经筛选出的异常数据,采用平均值代替异常值、忽略/删除异常值或人工修正的方式进行修正或处理。4.根据权利要求3所述的基于DataPurge组件的数据自动清洗方法,其特征在于,所述DataPurge组件中包含预定义或自定义的重复数据判断规则,所述自定义的重复数据判断规则从分析数据阶段即开始自动运行,采用先定义数据结构再填充实际数据的方式来完成重复数据的筛选。5.根据权利要求4所述的基于DataPurge组件的数据自动清洗方法,其特征在于,所述自定义的重复数据判断规则的执行流程包括如下过程:A')接入源数据集,解析元数据及关系,定义清洗规则...

【专利技术属性】
技术研发人员:李晨叶静萍
申请(专利权)人:安徽典典科技发展有限责任公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1