当前位置: 首页 > 专利查询>武汉大学专利>正文

一种大数据分析任务的高效云配置选择算法制造技术

技术编号:21691110 阅读:36 留言:0更新日期:2019-07-24 16:05
本发明专利技术提出了一种大数据分析任务的高效云配置选择算法,通过选取部分输入数据进行小规模集群实验,进而构建性能预测模型,利用性能预测模型预估任务在大规模集群上的性能表现,并且通过性能预测结果来确定最佳的云配置。通过使用上述算法,能够用更低的模型训练时间和成本来有效地帮助用户找到最佳的云配置。为部署在云计算平台上的大规模数据分析任务选择最佳的云配置,可以显著提高其运行效率,并且降低运行成本。

An Efficient Cloud Configuration Selection Algorithm for Large Data Analysis Tasks

【技术实现步骤摘要】
一种大数据分析任务的高效云配置选择算法
本专利技术属于云计算领域,尤其涉及基于大数据分析任务的高效云配置算法。
技术介绍
大规模数据分析任务日益增长,涉及的任务内容也日益复杂,其中经常涉及机器学习、自然语言处理和图像处理等方面。与传统计算任务相比,此类任务通常是数据密集型和计算密集型的,需要更长的计算时间和更高的计算成本。因此为了完成大规模数据分析任务,通常利用云计算巨大的计算能力来帮助完成任务。为大规模分析任务选择最佳的云配置,能够提高任务的运行效率,并且能降低用户的计算成本。为了满足不同的计算要求,现有的云服务提供商为用户提供上百种具有不同资源配置的实例类型(如亚马逊的EC2、微软的Azure和谷歌的ComputeEngine)。虽然大多数云服务提供商只允许用户从可用实例类型池中进行选择实例类型,但Google的ComputeEngine允许用户自定义配置虚拟机(配置vCPU和内存),这也使得选择正确的云配置变得更具挑战性。除此之外,各大云服务提供商也提供了Serverless云架构(例如亚马逊Lambda,谷歌CloudFunctions和微软AzureFunctions),这项服务允许用户将任务作为Serverless功能运行,而无需使用预先指定的配置启动实例。但是,Serverless架构可能需要应用程序重构其代码,而且Serverless云提供商并不能够帮助用户将任务完成时间最小化,或者帮助用户降低计算成本。云配置的选择,即实例的类型和实例数量的选择,直接影响任务的完成时间和耗费的经济成本。正确选择的云配置可以以更低的成本实现相同的性能目标。由于大规模数据分析任务更长的运行时间,发掘潜在的可节省成本就显得更为重要。由于任务的多样化,以及实例类型和集群规模的组合多样化,使得云配置的搜索空间变得巨大。在如此庞大的搜索空间中,对最佳云配置的使用穷举搜索既不实际也难以扩展。为限制搜索空间,CherryPick算法通过使用有限的任务信息来限制搜索空间,以此来选择最佳云配置。CherryPick针对成本最小化进行了优化,但不能用于优化其他目标,例如通过成本预算来最小化作业完成时间。除此之外,Ernest和PARIS则使用性能建模方法来选择云配置。通过使用这类性能预测模型,用户可以为优化目标不同的任务选择不同的云配置,例如,选择最廉价或最快速的云配置。但是,Ernest需要为每个实例类型训练预测模型,而PARIS仅在多个公共云中选择最佳实例类型,而不能给出集群大小。
技术实现思路
本专利技术针对现有技术的不足,提出一种大数据分析任务的高效云配置选择算法。本专利技术的技术方案为一种大数据分析任务的高效云配置选择算法,包含以下步骤:步骤1:训练数据收集阶段,实现方式如下,训练数据收集器仅对输入数据的一小部分进行特定实例类型的实验,这将用于预测在整个输入数据上任务执行的性能。训练数据收集包括实验选择和实验执行。实验选择:在实验选择中,需要确定两个重要的实验参数:(1)比例,即实验使用数据占总输入数据的比例;(2)任务执行时所使用的云服务器实例个数。本专利技术采用统计技术来选择部分实验参数,主要使用能够产生尽可能多信息的实验参数来预测任务运行时的性能,从而保证较高的预测准确性。根据D-optimality,选择最大化协方差矩阵(信息矩阵)加权和的实验参数。使用Ei=(xi,yi)来表示实验参数设置,其中xi是实例数,yi是输入数据比例。设M表示通过枚举所有可能的比例和实例数得到的实验参数设置总数。然后,利用Ei,可以计算出K维特征向量Fi,其中每项对应于预测模型中的一个项。通过这种方式,获得关于所有实验设置的M个特征向量。根据D-optimality,在实验参数选择时,选择最大化协方差矩阵(信息矩阵)加权和的实验参数,即约束条件为0≤αi≤1,i∈[1,M],其中αi表示选择i实验设置的概率。通过添加预算约束项B来表示实验的总成本,其中yi/xi是根据云平台上的定价模型来运行实验Ei的成本。在解决上述优化问题时,根据概率αi以非递增顺序对M个实验设置进行排序选择靠前的数据组作为训练数据。本专利技术中选择前10个数据组作为训练数据。实验执行:在选定的实验设置后,确定使用整个输入数据集中的哪些数据样本来组成实验数据集,以满足指定的比例。本专利技术中采用随机抽样从整个输入数据集中选择数据样本,因为随机抽样可以避免陷入数据集的孤立区域。在获得小数据集后,使用所选实验设置部署指定数量的实例并开始运行任务,之后以试验参数和任务完成时间作为用于构建预测模型的训练数据。步骤2:模型构造阶段,实现方式如下,模型构造器由模型构建器和模型转换器组成。利用收集的特定实例类型的训练数据,模型构建器可以建立基础预测模型。之后,模型变换器根据基础预测模型转化导出其余实例类型的预测模型。模型构建器:在特定实例类型上运行输入数据集子集的实验时,使用Tbase(x,y)来表示任务运行时间,给定实例数为x,数据集的比例为y。大规模分析任务通常以连续的步骤(即迭代)运行,直到满足终止条件。每个步骤主要由两个阶段组成:并发计算和数据通信。任务执行的计算时间与数据集大小保持相对关系,并且在大规模分析任务中有几种代表性的通信模式。因此,通过解析计算时间和通信时间来推断大规模分析任务的运行时间。本专利技术中主要目标是通过任务的计算和通信模式,并设计涉及x和y的拟合项,来得到给定任务的性能预测函数Tbase(x,y)。计算耗时,用户定义的迭代算法会对输入数据的每个样本进行运算所产生的时间成本。对于集群计算环境中的大规模数据处理任务,可以根据数据集的特征(例如,密集或稀疏)和算法,通过若干不同的拟合项来近似计算时间。由此,计算时间会是关于实例数量和数据集规模的一个函数。通信耗时,数据通过网络传送到目标节点产生的时间成本。图1抽象出了大规模数据分析任务中代表性的通信模式。尽管在编程模型和执行机制方面存在差异,但常见的通信模式可以表示出集群应用程序中的大多数通信情况。通信耗时主要是关于实例数量的函数,可以根据任务的不同通信模式,来推断出函数的拟合项。例如,当每个实例的数据大小不变时,通信耗时随着partition-aggregate通信模式的实例数线性增加,但是对于shuffle通信模式是二次方的关系。给定函数Tbase(x,y)的所有候选拟合项,使用互信息作为拟合项的选择标准,排除冗余项而只选择良好预测因子作为拟合项。设表示所有候选项的集合,其中每个项fk是x和y由计算和通信模式决定的函数。给定在不同数量的实例和不同数据规模下收集的m个训练数据样本,首先计算每个实验设置的K维特征向量Fi=(f1,i,…,fK,i),例如fk,i=yi/xi。然后,计算每个项与运行时间之间的互信息,并选择与运行时间的互信息高于阈值的项。根据m个训练运行时间样本,拟合得到基础预测模型中wk的值。其中βk表示是否选择了拟合项fk(βk=1表示选择该项)。模型转换器:云提供商通常提供具有不同CPU,内存,硬盘和网络容量组合的各种实例系列,以满足不同作业的需要,例如通用和计算/存储器/存储优化。通过大量实验可知给定任务和固定数据集,可以根据简单映射将一个实例类型的运行时间转换为不同的实例类型。因此,不需要对本文档来自技高网
...

【技术保护点】
1.大数据分析任务的高效云配置选择算法,其特征在于,包含以下步骤:步骤1:训练数据收集:选取多个一定比例的输入数据和该比例对应的任务执行时所使用的云服务器实例个数,确定每组试验参数和任务完成时间,其中,所述一定比例指实验使用数据占输入数据的比例;步骤2:模型构造:利用步骤1中的试验参数和任务完成时间,以所述的输入数据比例和实例个数,设计涉及输入数据比例和实例个数的拟合多项式,确定基础预测模型

【技术特征摘要】
1.大数据分析任务的高效云配置选择算法,其特征在于,包含以下步骤:步骤1:训练数据收集:选取多个一定比例的输入数据和该比例对应的任务执行时所使用的云服务器实例个数,确定每组试验参数和任务完成时间,其中,所述一定比例指实验使用数据占输入数据的比例;步骤2:模型构造:利用步骤1中的试验参数和任务完成时间,以所述的输入数据比例和实例个数,设计涉及输入数据比例和实例个数的拟合多项式,确定基础预测模型中wk的值。其中βk表示是否选择了拟合项fk(βk=1表示选择该项);模型转换:将步骤1中耗时最少的试验参数在目标实例类型下获得运行时间为ttarget,利用映射的方式,目标实例类型的预测模型导出为其中步骤3:选择器构造:对于任务的给定输入数据集,利用步骤2得到的预测模型,计算满足特定运行时间和成本约束的最优选云配置。2.根据权利要求1所述的大数据分析任务的高效云配置选择算法,其特征在于:所述步骤1中选取多个一定比例的输入数据和该比例对应的任务执行时所使用的云服务器实例个数具体过程为:先选取一定比例范围的输入数据和一定范围的云服务器实例个数,根据D-optimality,在实...

【专利技术属性】
技术研发人员:陈艳姣林龙
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1