A computing resource used to run data mining tasks on a distributed computing system. Data sets and / or data descriptors are received, and data mining tasks are executed based on the data set. The data descriptors describe or limit the characteristics of the related data sets. Receive one or more control values for a data mining task, as well as one or more task parameters that define the data mining task. Based on the received data set or the received data descriptors, the one or more control values and the one or more task parameters, we estimate the computing resources used to perform data mining tasks on the distributed computing system.
【技术实现步骤摘要】
【国外来华专利技术】估计用于运行数据挖掘服务的计算资源
本专利技术涉及一种估计用于运行数据挖掘任务的计算资源的方法,更具体地,涉及一种估计分布式计算系统(云环境)上的数据挖掘任务的成本的方法。
技术介绍
关于复杂操作的预期成本的信息对于作为服务提供品的软件至关重要,尤其是如果客户根据实际资源消耗动态计费的话。对于通常消耗大量CPU、盘I/O和主内存的数据挖掘/大数据分析等任务尤其如此。虽然已经有很多关于使用执行计划在大型数据库上估计(简单)SQL查询所需的资源的工作,但是对于非平凡的统计任务来说,类似的工作还不存在,原因有三:-大多数统计任务使用非平凡的迭代算法;-算法的资源消耗取决于数据的统计特征及其尺寸;-任务的结果通常不固定,但可以以影响资源消耗的不同质量或准确性水平实现。特别是在云计算中,强烈希望对数据挖掘任务进行定价。在云服务的用户想要在数据挖掘结果方面(通常在准确性方面)获得价格并想要利用所提供的算法的同时,云服务提供者想在成本(例如CPU使用率、内存使用率、盘使用率、I/O或网络使用率)方面对要执行的计算任务进行定价。这可以被视为“数据挖掘即服务”。
技术实现思路
本专利技 ...
【技术保护点】
一种用于估计用于在分布式计算系统上运行数据挖掘任务的计算资源的计算机实现的方法,该方法包括:‑接收数据集和/或数据描述符,基于该数据集执行所述数据挖掘任务,所述数据描述符描述或限制与估计用于运行所述数据挖掘任务的计算资源相关的所述数据集的特征;‑接收针对所述数据挖掘任务的一个或多个控制值;‑接收一个或多个任务参数,所述任务参数定义要在所述数据集上执行的所述数据挖掘任务;以及‑基于所接收的数据集或所接收的数据描述符、所述一个或多个控制值和所述一个或多个任务参数,估计用于在所述分布式计算系统上执行所述数据挖掘任务的计算资源。
【技术特征摘要】
【国外来华专利技术】2015.05.29 US 14/725,4091.一种用于估计用于在分布式计算系统上运行数据挖掘任务的计算资源的计算机实现的方法,该方法包括:-接收数据集和/或数据描述符,基于该数据集执行所述数据挖掘任务,所述数据描述符描述或限制与估计用于运行所述数据挖掘任务的计算资源相关的所述数据集的特征;-接收针对所述数据挖掘任务的一个或多个控制值;-接收一个或多个任务参数,所述任务参数定义要在所述数据集上执行的所述数据挖掘任务;以及-基于所接收的数据集或所接收的数据描述符、所述一个或多个控制值和所述一个或多个任务参数,估计用于在所述分布式计算系统上执行所述数据挖掘任务的计算资源。2.根据权利要求1所述的计算机实现的方法,所述方法还包括:-基于所估计的执行所述数据挖掘任务所需的计算资源来估计所述数据挖掘任务的成本。3.根据权利要求2所述的计算机实现的方法,所述方法通过导出成本描述符来估计所述成本,所述成本描述符至少包括关于计算所述数据挖掘任务所需的迭代次数的信息和关于每次迭代的运算的复杂度的信息。4.根据权利要求2或3所述的计算机实现的方法,所述方法还包括:-基于一个或多个控制变量的值范围提供一组成本数据,所述一组成本数据包括与所述一个或多个控制变量的特定值相关联的多个成本值。5.根据前述权利要求中的任一项所述的计算机实现的方法,所述一个或多个控制值是估计所述计算资源的期望精度和/或用于对计算资源估计进行计算的持续时间。6.根据前述权利要求中的任一项所述的计算机实现的方法,所述任务参数包括算法分类器,所述算法分类器定义要对数据执行的数据挖掘任务的类型。7.根据权利要求6所述的计算机实现的方法,所述算法分类器将数据挖掘任务分类为回归任务、分类任务或聚类任务。8.根据权利要求7所述的计算机实现的方法,所述方法在回归任务或分类任务的情况下还接收损失函数类型。9.根据权利要求8所述的计算机实现的方法,所述方法还接收正则化函数。10.根据权利要求7所述的计算机实现的方法,所述方法在聚类任务的情况下还接收聚类或相似度函数,所述聚类或相似度函数评估将所述数据集中包括的数据划分成多个数据群的划分。11.根据前述权利要求中的任一项所述的计算机实现的方法,所述方法还接收与包括在所述数据集中的数据相关联的一个或多个数据属性,所述数据属性定义影响运行所述数据挖掘任务的计算工作量的数据的特性。12.根据前述权利要求中的任一项所述的计算机实现的方法,所述方法还提供:通过在所述数据集上应用数据描述符提取算法从所述数据集中提取一个或多个数据描述符。13.根据前述权利要求中的任一项所述的计算机实现的方法,所述方法还提供:通过评估所述数据挖掘任务的计算标准,从多种算法中选择出用于基于所接收的数据集和/或所接收的数据描述符、所述一个或多个控制值和所述一个或多个任务参数来估计所述数据挖掘任务的计算工作量的算法。14.根据前述权利要求中的任一项所述的计算机实现的方法,所述方法还包括:-把关于执行所述数据挖掘任务所需的计算资源的信息和一个或多个控制值提供给部署调度器,所述部署调度器包括关于适于执行所述数据挖掘任务的多个分布式计算系统的信息;-基于计算资源信息和所述一个或多个控制值选择一个或多个分布式计算系统;以及-返回关于在特定分布式计算系统上部署所述数据挖掘任务的成本的信息。15.根据权利要求14所述的计算机实现的方法,该方法还返回关于用于在特定分布式计算系统上处理所述数据挖掘任务的部署策略的信息。16.根据前述权利要求2至15中的任一项所述的计算机实现的方法,所述方法还包括:(i)接收反馈信息,该反馈信息包括关于先前执行的数据挖掘任务的成本估计和在部署所述数据挖掘任务时发生的实际成本的信息;以及(ii)通过使用所述反馈信息来细化当前数据挖掘任务的成本估计...
【专利技术属性】
技术研发人员:J·马瑞泽克,D·马维罗艾迪斯,P·普姆佩,M·伍尔斯特,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。