当前位置: 首页 > 专利查询>浙江大学专利>正文

一种可视化数据清洗脚本清洗过程分析系统技术方案

技术编号:33631681 阅读:101 留言:0更新日期:2022-06-02 01:36
本发明专利技术公开了一种可视化数据清洗脚本清洗过程分析系统,包括程序执行器用于检测并保存中间表格信息,以及每个中间表格中的列状态信息;代码解析器用于提取对中间表格进行数据转换操作的表格信息数据的输入表格信息,输出表格信息和函数;数据转换推断器用于确定表格信息数据的数据转换操作类型和参数,最终生成数据转换操作描述信息;清洗布局构造器用于向有向无环图框架中的各个节点匹配中间表格信息得到中间表格有向无环图;图形图符绘制器用于将数据转换操作图形分配到各个节点间形成有向无环图的边,以得到数据清洗过程可视化图。该系统能够展示数据清洗脚本中多表的变化,以及可视化复杂的数据转换操作。以及可视化复杂的数据转换操作。以及可视化复杂的数据转换操作。

【技术实现步骤摘要】
一种可视化数据清洗脚本清洗过程分析系统


[0001]本专利技术属于程序可视化领域,具有涉及一种可视化数据清洗脚本清洗过程分析系统。

技术介绍

[0002]数据清洗(Data Wrangling)是一种通过清洗和转换操作将复杂凌乱的数据整理成理想数据格式的过程,是数据存取、数据建模和数据可视分析等任务的重要前置步骤。二维数据表格是一种组织整理数据的有效手段,人们在通讯交流、科学研究以及数据分析活动中广泛采用着形形色色的表格。由于原始表格常常包含“脏”数据,或是数据格式、内容等不符合预期目标,因此,数据工作者必须对表格进行数据清洗。
[0003]数据清涉及各式各样的数据转换操作(Data Transformation Operations),如删除重复行、填补缺失值、拆分复合列等。洗利用R、Python等编程语言来编写特定的清洗脚本是完成数据清洗工作的常用方法。在实际工作中,数据工作者常常需要理解清洗脚本中所执行的具体数据清洗过程,以了解数据是如何发生变化的。例如,在程序复用中,数据工作者需要学习其它脚本中数据清洗的思路,以修改并应用于自己本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可视化数据清洗脚本清洗过程分析系统,其特征在于,包括:程序适配器和可视化生成器,所述程序适配器包括程序执行器,代码解析器和数据转换推断器;其中,所述程序执行器包括程序加工器和程序解释器,所述程序加工器用于标记原始表格数据清洗脚本中的具有中间表格信息的表格信息数据,所述程序解释器用于检测并保存中间表格信息,以及每个中间表格中的列状态信息;所述代码解析器用于基于所述数据清洗脚本中生成所述中间表格信息的源代码,提取对中间表格进行数据转换操作的操作信息,所述操作信息包括所述表格信息数据的输入表格信息,输出表格信息,以及函数;所述数据转换推断器用于基于函数名与数据转换操作类型的对应关系确定表格信息数据的数据转换操作类型集,基于所述输入表格信息和所述输出表格信息从所述数据转换操作类型集中确定所述表格信息数据的最终数据转换操作类型,基于所述函数参数确定所述最终数据转换操作的参数,基于最终数据转换操作的类型和参数生成数据转换操作文本描述,所述最终数据转换操作的类型和参数,以及所述数据转换操作文本描述构建数据转换操作描述信息;所述可视化生成器包括清洗布局构造器和图形图符绘制器,其中,所述清洗布局构造器用于采用有向无环图,基于所述数据转换操作描述信息中的中间表格在清洗过程中的因果关系生成有向无环图框架,采用Eclipse Layout Kernel布局算法,向所述有向无环图框架中的各个节点匹配中间表格信息得到中间表格有向无环图;所述图形图符绘制器用于基于所述数据转换操作描述信息为所述数据转换操作生成以图形图符形式可视化的数据转换操作图形,基于所述中间表格有向无环图中的各个节点的因果关系,将所述数据转换操作图形分配到各个节点间形成有向无环图的边,以得到数据清洗过程可视化图。2.根据权利要求1所述的可视化数据清洗脚本清洗过程分析系统,其特征在于,基于所述中间表格信息从所述原始表格数据清洗脚本中定位...

【专利技术属性】
技术研发人员:巫英才熊凯傅四维
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1