快速数据探索制造技术

技术编号：36800811 阅读：18 留言：0更新日期：2023-03-08 23:42

可以提供一种用于要上传的数据的快速数据探索的计算机实现的方法。该方法(100)包括从本地系统上传第一数据集(102)，确定第一数据集未被损坏(104)。该方法(100)还包括与所述上传并行地执行：从第一数据集中选择预定义数量的记录并构建第二数据集(106)，确定关于第一数据集的统计数据和元数据(108)，以及使第二数据集、所述统计数据和所述元数据可视化(110)。(110)。(110)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】快速数据探索

[0001]本专利技术总体上涉及将大量数据从客户端系统上传到服务器，并且更具体地涉及用于对要上传的数据的快速数据探索的计算机实现的方法。本专利技术进一步涉及一种用于对要上传的数据的快速数据探索的数据探索系统和计算机程序产品。

技术介绍

[0002]目前，AI(人工智能)普遍存在于任何大小的企业以及许多类型的企业和消费者应用中。由此，在开发或集成AI技术时涉及大量开发者。结果，并且由于通常需要大量的计算资源来训练机器学习模型，所以这样的服务经常实现为中央服务或基于云计算的服务。
[0003]传统的机器模型学习方法基于机器学习算法，并且使用已知数据样本集合以及相关注释，以便训练能够预测未见过数据样本的注释的一般模型。例如，在输入图像集合和相关联的图像类别标签上训练用于图像分类的深度学习模型。稍后，在测试阶段期间，该机器学习(ML)模型被用于预测新的未见过图像的图像类别标签。输入数据样本可以包括在训练阶段期间被一起处理的注释和未注释的数据样本的混合。
[0004]从一般观点来看，输入数据样本可作为所捕获的输入数据获得，或者它们可由数据生成器生成。数据生成器可被表示为真实世界传感器(例如，静态照片相机或视频相机、音频系统)、人类(例如，文本作者)或模拟器(旨在产生某种类型的数据样本的人工系统)。传统数据识别方法可以用固定数量的注释训练样本来操作，所述训练样本可以形成数据样本的训练集合。这些训练数据集通常相对较大。
[0005]机器学习模型的开发者通常需要形成对可用训练数据的结构的理解以便...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于要上传的数据的快速数据探索的计算机实现的方法，该方法包括：将第一大小的第一数据集从本地系统上传到服务器；由所述本地系统确定第一数据集未被损坏；以及与所述上传并行地执行：从第一数据集选择特定数量的记录并且利用所选择的记录构建第二数据集，确定关于第一数据集的统计数据和元数据，以及将第二数据集、所述统计数据和所述元数据可视化。2.根据权利要求1所述的方法，其中所述统计数据包括以下组中的至少一者，所述组包括：最小值、最大值、中值、平均值、四分位值、数据值的频率、以及缺失数据值的量。3.根据权利要求1所述的方法，其中所述元数据包括以下组中的至少一者，所述组包括：行数、列数和列字段的类型。4.根据权利要求1所述的方法，进一步包括：将所述统计数据和元数据发送到所述服务器，其中将所述统计数据和元数据发送到所述服务器是与将第一数据集上传到所述服务器并行地执行的。5.根据权利要求1所述的方法，其中确定第一数据集未被损坏是在所述上传开始之前执行的。6.根据权利要求1所述的方法，其中所述本地系统具有处理核和存储器的第一配置，所述第一配置能够在第一时间段中使用第一数据集训练机器学习模型，并且所述服务器具有处理核和存储器的第二配置，所述第二配置能够在第二时间段中使用第一数据集训练所述机器学习模型，其中第二时间段小于第一时间段。7.根据权利要求1所述的方法，进一步包括使用所述统计数据、所述元数据或第二数据集来配置数据建模工具，其中数据建模工具与上传第一数据集并行地被配置。8.根据权利要求7所述的方法，进一步包括对第一数据集执行所配置的数据建模工具。9.根据权利要求1所述的方法，其中第二数据集具有第二大小，并且第一数据集的第一大小大于所述第二大小。10.根据权利要求1所述的方法，其中从第一数据集中选择包括：从第一数据集中从开头、中间、结尾，随机地，或根据预定义的算法选择数据。11.一种用于要上传的数据的快速数据探索的数据探索系统，该系统包括：具有处理单元和存储器的本地系统；网络适配器，被配置为将第一大小的第一数据集从所述本地系统上传到服务器计算机系统；第一确定单元，被配置为确定第一数据集未被损坏；选择单元，被配置为从第一数据集中选择特定数量的记录并且利用所选择的记录构建第二数据集，其中所述选择单元可操作用于与将第一数据集上传到所述服务器计算机系统并行地选择所述特定数量的记录并构建第二数据集；第二确...

【专利技术属性】
技术研发人员：T，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人