数据整理的系统和方法技术方案

技术编号:13306780 阅读:86 留言:0更新日期:2016-07-10 02:04
在一些示例性实施例中,可以使图形用户界面(GUI)在用户的计算设备上显示。GUI可以被配置为使得用户能够提交数据集的标识和至少一个配置参数。可以经由计算设备上的GUI接收数据集的标识、至少一个配置参数和至少一个整理参数。可以基于至少一个配置参数来配置采样算法。可以使用所配置的采样算法从数据集生成数据的样本。可以基于至少一个整理参数对数据的样本执行至少一个数据整理操作。

【技术实现步骤摘要】

本申请一般涉及数据处理的
,并且在各种实施例中,涉及数据整理(wrangling)的系统和方法。
技术介绍
数据整理是将数据从一种原始形式转换或映射成另一种格式从而数据容易用于分析的过程,诸如将非结构化数据清理(cleaning)成列格式。例如,在数据整理期间,用户可能希望将日期时间值分割成两个单独的列,以特定的方式格式化日期,或者甚至删除值的时间部分以节省空间。数据整理的另一例子是将日志文件数据与用户元数据合并,从而可以理解正在执行动作的用户的背景。对于在千万亿字节(petabytes)规模的大数据集,存在的问题是,在考虑时间和质量之间的权衡的情况下如何创建数据集的智能代表性示例。重要的是创建作为真正数据集的子集的样本数据集,因为实际上不可能在单个台式计算机上存储整个数据集。自助服务用户理想地不希望在开始创建整理操作之前等待数天来产生样本数据集。重要的是获得高质量的代表性的样本数据集以对其执行操作,以使得用户不会在调度作业的多次迭代方面浪费时间。例本文档来自技高网...

【技术保护点】
一种系统,包括:配置模块,能够在至少一个处理器上执行,被配置为:使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。

【技术特征摘要】
2014.12.26 US 14/583,4941.一种系统,包括:
配置模块,能够在至少一个处理器上执行,被配置为:
使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置
为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理
参数;
经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数
和所述至少一个整理参数;
基于所述至少一个配置参数来配置采样算法;以及
采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。
2.如权利要求1所述的系统,其中,所述配置模块还被配置为响应于与
由用户经由GUI提供的输入相对应的、用户生成的中断而触发配置采样算法。
3.如权利要求1所述的系统,其中,所述配置模块还被配置为基于所述
至少一个配置参数来生成查询脚本,查询脚本被配置为响应于查询脚本被执
行而从数据集对数据采样。
4.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置
为将生成数据样本的执行时间限制在由用户指示的最大时间量之内的时间参
数。
5.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置
为将样本的大小限制在由用户指示的数据项的最大数目之内的数据量参数。
6.如权利要求1所述的系统,其中,所述至少一个配置参数包括被配置
为将样本大小限制在由用户指示的数据集的最大百分比之内的数据集百分比
参数。
7.如权利要求1所述的系统,还包括数据可视化软件工具,被配置为生
成数据的视觉表示,其中,所述采样模块还被配置为将所生成的数据的样本
发送到数据可视化软件工具。
8.如权利要求7所述的系统,还包括样本质量模块,被配置为基于所述
至少一个配置参数来确定数据的样本的质量值,并且将质量值发送到数据可
视化软件工具,其中所述数据可视化软件工具被配置为:
确定数据的样本的原始可视化;
基于原始可视化的修改来生成数据的样本的修改的可视化,所述修改基
于质量值;以及
使样本的修改的可视化被显示在用户的计算设备上。
9.如权利要求8所述的系统,其中,所述样本质量模块还被配置为:
计算被包括在数据的样本中的数据集的量;以及
基于所计算的量来确定质量值。
10.一种计算机实施的方法,包括:
使图形用户界面(GUI)在用户的计算设备上显示,该GUI被配置为使
得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;
经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所
述至少一个整理参数;
基于所述至少一个配置参数,由具有存储器和至少一个处理器的机器配
置采样算法;以及
使用...

【专利技术属性】
技术研发人员:M楚穆拉I伊万诺夫V库马
申请(专利权)人:商业对象软件有限公司
类型:发明
国别省市:爱尔兰;IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1