【技术实现步骤摘要】
用于分布式计算的资源分配方法、计算加速方法以及装置
本申请涉及资源分配领域,具体涉及一种用于分布式计算的资源分配方法和装置。本申请同时提供一种用分布式计算的计算加速方法和装置。
技术介绍
随着互联网的发展,人们越来越热衷于网络生活,需要计算机处理的数据量越来越多,数据结构也开始多元化,需要占用的计算资源也越来越多,传统的基于客户/服务器模型的集中计算已经无法承载日趋复杂的网络应用,于是出现了分布式计算。分布式计算主要用于把一个需要占用巨大计算资源的作业分解成若干个子作业,然后为这些子作业分别分配分散的、处于空闲状态的计算资源并进行计算处理,最后把这些计算结果综合起来得到最终的结果。目前流行的分布式计算平台,通常采用的是按照参与计算作业的数据文件的长度来分配计算资源的方法,该方法是基于这样一种思路,即:完成一项计算作业占用计算资源的多少与参与计算作业的数据文件的长度成正比,数据文件越大需要占用的计算资源越多,反之越少。该方法的基本步骤是:1.确定参加计算作业的数据文件的长度;2.用上述数据文件的长度除以一个计算资源单位可以处理的数据文件的长度,即得到需要分配的计算资源单位的数目(如果数据文件的长度小于一个计算资源单位可处理数据文件的长度,则需要分配的计算资源单位数目为1);3.按照上述计算结果为计算作业分配计算资源单位。这种现有的资源分配方法简便易行,但是也存在比较明显的缺陷。在某些需要对数据文件进行分析或者加工的应用中,例如:数据仓库应用,计算作业的计算量取决于计算的需求和数据文件所包含的具体信息,而与数据文件的长度没有必然联系,也就是说可能出现这样的情况 ...
【技术保护点】
一种用于分布式计算的资源分配方法,其特征在于,包括:获取待执行计算作业的数据文件的实际长度;根据所述待执行计算作业的数据文件的计算规模以及所述数据文件的实际长度获取所述数据文件的文件长度的调整因子;根据所述调整因子调整所述待执行计算作业的数据文件的长度;根据调整后的待执行计算作业的数据文件的长度,分配计算资源。
【技术特征摘要】
1.一种用于分布式计算的资源分配方法,其特征在于,包括:获取待执行计算作业的数据文件的实际长度;根据所述待执行计算作业的数据文件的计算规模以及所述数据文件的实际长度获取所述数据文件的文件长度的调整因子;根据所述调整因子调整所述待执行计算作业的数据文件的长度;根据调整后的待执行计算作业的数据文件的长度,分配计算资源。2.根据权利要求1所述的用于分布式计算的资源分配方法,其特征在于,所述获取待执行计算作业的数据文件的实际长度包括:通过读取所述数据文件头中的文件长度字段获取所述数据文件的实际长度;或者,通过读取计算平台的元数据库中的用于记录所述数据文件长度的字段获取所述数据文件的实际长度。3.根据权利要求1所述的用于分布式计算的资源分配方法,其特征在于,所述根据所述待执行计算作业的数据文件的计算规模以及所述数据文件的实际长度获取所述数据文件的文件长度的调整因子包括:估算所述待执行计算作业的数据文件的计算规模;根据所述待执行计算作业的数据文件的计算规模估算为所述数据文件分配计算资源单位的预期值;根据所述计算资源单位的预期值获取与之对应的计算资源可处理的数据文件长度;计算所述可处理的数据文件长度与所述待执行计算作业的数据文件的实际长度的比值,作为所述的调整因子。4.根据权利要求1所述的用于分布式计算的资源分配方法,其特征在于,所述根据所述待执行计算作业的数据文件的计算规模以及所述数据文件的实际长度获取所述数据文件的文件长度的调整因子包括:估算所述待执行计算作业的数据文件的计算规模;根据所述待执行计算作业的数据文件的计算规模估算为所述数据文件分配计算资源单位的预期值;获取计算平台可提供的计算资源单位的数目;判断所述计算平台可提供的计算资源单位的数目与所述计算资源单位的预期值的大小;如果所述计算平台可提供的计算资源单位的数目小于所述计算资源单位的预期值,则采用所述计算平台可提供的计算资源单位的数目作为所述计算资源单位的预期值;根据所述计算资源单位的预期值获取与之对应的计算资源可处理的数据文件长度;计算所述可处理的数据文件长度与所述待执行计算作业的数据文件的实际长度的比值,作为调整因子。5.根据权利要求3或4所述的用于分布式计算的资源分配方法,其特征在于,所述根据所述调整因子调整所述待执行计算作业的数据文件的长度包括:判断所述调整因子大小;若所述调整因子大于1,对所述数据文件实施膨胀操作,使所述数据文件的长度增大到所述计算资源可处理的数据文件长度;若所述调整因子小于或者等于1,不调整所述数据文件的长度。6.根据权利要求5所述的用于分布式计算的资源分配方法,其特征在于,所述若所述调整因子大于1,对所述数据文件实施膨胀操作,使所述数据文件的长度增大到所述计算资源可处理的数据文件长度包括:根据所述调整因子估算需拼接的冗余字段的长度;在所述待执行计算作业的数据文件中增加可增删的伪列并拼接所述长度的冗余字段。7.根据权利要求6所述的用于分布式计算的资源分配方法,其特征在于,所述在所述待执行计算作业的数据文件中增加可增删的伪列并拼接所述长度的冗余字段的步骤,采用...
【专利技术属性】
技术研发人员:陈风,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。