快速数据探索制造技术

技术编号:36800811 阅读:18 留言:0更新日期:2023-03-08 23:42
可以提供一种用于要上传的数据的快速数据探索的计算机实现的方法。该方法(100)包括从本地系统上传第一数据集(102),确定第一数据集未被损坏(104)。该方法(100)还包括与所述上传并行地执行:从第一数据集中选择预定义数量的记录并构建第二数据集(106),确定关于第一数据集的统计数据和元数据(108),以及使第二数据集、所述统计数据和所述元数据可视化(110)。(110)。(110)。

【技术实现步骤摘要】
【国外来华专利技术】快速数据探索


[0001]本专利技术总体上涉及将大量数据从客户端系统上传到服务器,并且更具体地涉及用于对要上传的数据的快速数据探索的计算机实现的方法。本专利技术进一步涉及一种用于对要上传的数据的快速数据探索的数据探索系统和计算机程序产品。

技术介绍

[0002]目前,AI(人工智能)普遍存在于任何大小的企业以及许多类型的企业和消费者应用中。由此,在开发或集成AI技术时涉及大量开发者。结果,并且由于通常需要大量的计算资源来训练机器学习模型,所以这样的服务经常实现为中央服务或基于云计算的服务。
[0003]传统的机器模型学习方法基于机器学习算法,并且使用已知数据样本集合以及相关注释,以便训练能够预测未见过数据样本的注释的一般模型。例如,在输入图像集合和相关联的图像类别标签上训练用于图像分类的深度学习模型。稍后,在测试阶段期间,该机器学习(ML)模型被用于预测新的未见过图像的图像类别标签。输入数据样本可以包括在训练阶段期间被一起处理的注释和未注释的数据样本的混合。
[0004]从一般观点来看,输入数据样本可作为所捕获的输入数据获得,或者它们可由数据生成器生成。数据生成器可被表示为真实世界传感器(例如,静态照片相机或视频相机、音频系统)、人类(例如,文本作者)或模拟器(旨在产生某种类型的数据样本的人工系统)。传统数据识别方法可以用固定数量的注释训练样本来操作,所述训练样本可以形成数据样本的训练集合。这些训练数据集通常相对较大。
[0005]机器学习模型的开发者通常需要形成对可用训练数据的结构的理解以便选择适当的机器学习算法。通常,在此阶段中,需要试错形式的许多试错周期,以便选择具有针对给定问题的相关联超参数的适当AI算法和可用训练数据。
[0006]因为在训练会话期间需要大量计算能力,所以在集中式计算资源上完成训练、数据检查、测试阶段等,而开发者继续在他的本地工作站上工作。然而,通常必须将大的训练数据集上传到中央资源,这可能是非常耗时的,从而导致开发者的不生产时间。
[0007]存在关于用于对要上传的数据的快速数据探索的计算机实现的方法的若干公开。
[0008]文献US 8,805,835 B2公开了用于管理数据集的系统、方法和技术,具体地,使用元数据来表示、获取和传播大的数据集和数据文件。描述了使用元数据的数据表示、获取和传播大数据集和数据文件。
[0009]文献US 6,308,168 B1公开了一种数据表示模块,该数据表示模块表示由元数据驱动的面板,以允许用户配置来自计算机数据库系统的信息的呈现。在初始安装数据呈现模块软件时,通过配置元数据表为用户的环境定制数据呈现模块。对数据呈现模块所呈现的面板的改变可通过改变元数据表而不修改数据呈现模块软件来执行。
[0010]已知解决方案的缺点可能是,从本地系统至服务器传输或上传数据继续需要大量时间,从而降低了数据科学家开发ML模型时的生产率。
[0011]因此,可能需要克服不能继续在数据被上传的同时针对数据进行工作的缺点,特
别是在开发机器学习算法的背景下。

技术实现思路

[0012]根据本专利技术的一个方面,可以提供一种用于要上传的数据的快速数据探索的计算机实现的方法。该方法可以包括从本地系统上传具有第一大小的第一数据集并且确定该第一数据集未被损坏。所述方法还可以包括:与所述上传并行地,还执行从所述第一数据集中选择构建第二数据集的预定义数量的记录,确定关于所述第一数据集的统计数据和元数据,以及使所述第二数据集、所述统计数据和所述元数据可视化。
[0013]根据本专利技术的另一方面,可以提供一种用于要上传的数据的快速数据探索的数据探索系统。该系统可以包括用于从本地系统上传具有第一大小的第一数据集的装置以及用于确定该第一数据集未被损坏的装置。此外,所述系统可以包括:用于从所述第一数据集中选择构建第二数据集的预定义数量的记录的装置;用于确定关于所述第一数据集的统计数据和元数据的装置;以及用于可视化所述第二数据集、所述统计数据和所述元数据的装置。由此,所述用于选择的装置、所述用于确定统计数据和元数据的装置以及所述用于可视化的装置可与所述用于上传的装置在时间上并行地操作。
[0014]所提出的用于对要上传的数据的快速数据探索的计算机实现的方法可以提供多个优点、技术效果、贡献和/或改进:
[0015]在包括本地系统(即,使用瘦客户机(例如,web浏览器)作为用户界面的本地工作站)和具有用于执行ML模型的训练的更多计算资源的服务器系统的环境中工作的数据科学家可以节省很多时间,有高生产率并且可以允许更好地使用可用计算资源。因为开发ML模型需要许多的反复、许多的试错和大量的对数据的实验,从本地系统到服务器的传输时间或上传时间可能显著地降低数据科学家的生产率。这也是利用可能必须从本地系统上传到服务器的训练数据的不同集合进行实验的结果。
[0016]所提出的概念可以允许数据科学家基于处于从本地系统上传到服务器的过程中的第一数据集的代表性子集在将训练数据从本地系统上传到服务器期间继续他的实验和数据探索。
[0017]统计数据以及从第一数据集导出的元数据可帮助用户或数据科学家得到关于所选训练数据的印象,并且可建立用于配置用于数据净化、数据正规化、数据校正和/或数据采用的附加工具的基础。如此配置的工具可随后被应用于第一数据集。由此,用户或数据科学家可以不限于在本地系统上或在第一数据集可能已经被上传到的服务器上运行该工具。
[0018]所提出的概念可以不限制数据科学家在开始ML训练过程之前对数据进行实验和适配的自由,而是给予他更多的时间和灵活性以仅与子集(特别是第二数据集)一起工作,以便提高他的生产率并且为了使用可用资源(特别是计算资源)是生产率更高的,因为他可以与第二数据集一起工作,该第二数据集可以是第一数据集的代表并且仅需要很少资源用于快速数据探索。
[0019]在下文中,将描述本专利技术构思的可应用于该方法以及系统的附加实施例。
[0020]根据该方法的一个有利实施例,统计数据包括以下组中的至少一个,该组包括最小值(特别是列的数据值)、最大值、中值、平均值、四分位值、数据频率、缺失数据值的量(例如,在特定记录或特定列中)。还可能确定超出数据集的元数据的经典含义的附加统计数
据。
[0021]根据该方法的另一有利实施例,元数据包括以下组中的至少一个,该组包括行数、列数和列字段类型。另外,元数据还可包括关于第一数据集中的数据的附加数据。例如,这还可以包括记录的大小和类型、总数据量以及(例如,在第一数据集的开始或末尾处添加的)显式元数据。这样的另外附加的元数据可仅从第一数据集提取。
[0022]根据一个允许的实施例,该方法还可以包括与上传第一数据集并行地发送统计数据和元数据。发送目的地可以是用于第一数据集的相同目的地。统计数据可以或可以不本地存储,即,它们还可以经由REST(代表性状态传输)请求从本地、客户端系统传输到服务器。
[0023]根据该方法的可选实施例,确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于要上传的数据的快速数据探索的计算机实现的方法,该方法包括:将第一大小的第一数据集从本地系统上传到服务器;由所述本地系统确定第一数据集未被损坏;以及与所述上传并行地执行:从第一数据集选择特定数量的记录并且利用所选择的记录构建第二数据集,确定关于第一数据集的统计数据和元数据,以及将第二数据集、所述统计数据和所述元数据可视化。2.根据权利要求1所述的方法,其中所述统计数据包括以下组中的至少一者,所述组包括:最小值、最大值、中值、平均值、四分位值、数据值的频率、以及缺失数据值的量。3.根据权利要求1所述的方法,其中所述元数据包括以下组中的至少一者,所述组包括:行数、列数和列字段的类型。4.根据权利要求1所述的方法,进一步包括:将所述统计数据和元数据发送到所述服务器,其中将所述统计数据和元数据发送到所述服务器是与将第一数据集上传到所述服务器并行地执行的。5.根据权利要求1所述的方法,其中确定第一数据集未被损坏是在所述上传开始之前执行的。6.根据权利要求1所述的方法,其中所述本地系统具有处理核和存储器的第一配置,所述第一配置能够在第一时间段中使用第一数据集训练机器学习模型,并且所述服务器具有处理核和存储器的第二配置,所述第二配置能够在第二时间段中使用第一数据集训练所述机器学习模型,其中第二时间段小于第一时间段。7.根据权利要求1所述的方法,进一步包括使用所述统计数据、所述元数据或第二数据集来配置数据建模工具,其中数据建模工具与上传第一数据集并行地被配置。8.根据权利要求7所述的方法,进一步包括对第一数据集执行所配置的数据建模工具。9.根据权利要求1所述的方法,其中第二数据集具有第二大小,并且第一数据集的第一大小大于所述第二大小。10.根据权利要求1所述的方法,其中从第一数据集中选择包括:从第一数据集中从开头、中间、结尾,随机地,或根据预定义的算法选择数据。11.一种用于要上传的数据的快速数据探索的数据探索系统,该系统包括:具有处理单元和存储器的本地系统;网络适配器,被配置为将第一大小的第一数据集从所述本地系统上传到服务器计算机系统;第一确定单元,被配置为确定第一数据集未被损坏;选择单元,被配置为从第一数据集中选择特定数量的记录并且利用所选择的记录构建第二数据集,其中所述选择单元可操作用于与将第一数据集上传到所述服务器计算机系统并行地选择所述特定数量的记录并构建第二数据集;第二确...

【专利技术属性】
技术研发人员:T
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1