基于依赖传递的并行计算调度方法、系统、介质及设备技术方案

技术编号:31886200 阅读:36 留言:0更新日期:2022-01-15 12:10
本发明专利技术提供一种基于依赖传递的并行计算调度方法、系统、介质及设备,所述基于依赖传递的并行计算调度方法包括:获取对各个数据子集定义的依赖信息;所述依赖信息是指各个所述数据子集之间在逻辑计算上的关联信息;根据所述依赖信息确定各个所述数据子集的依赖关系,并结合所述依赖关系构建依赖树;确定所述依赖树中不存在依赖关系的数据子集为待计算数据子集,将所述待计算数据子集所涉及的多个计算任务以并行方式执行。本发明专利技术提供了一种并行计算调度策略,使得系统对资源的利用率明显更高,总的计算时间减少。总的计算时间减少。总的计算时间减少。

【技术实现步骤摘要】
基于依赖传递的并行计算调度方法、系统、介质及设备


[0001]本专利技术属于数据统计与分析的
,涉及一种数据计算的调度方法,特别是涉及一种基于依赖传递的并行计算调度方法、系统、介质及设备。

技术介绍

[0002]在需要定期对大量业务数据进行统计分析时,需要使用并行计算的方式来提高效率,缩短计算时间。业务数据是一个复杂数据集;是由多个子业务产生的子数据集组成,子数据集间有复杂的依赖关系,由于业务增长迅速、变化频繁,业务数据也是一个不断变化膨胀的数据集,依赖关系会经常变化,数据分析团队由多个成员构成,使得每个人都能跟进数据集明确的依赖关系认知变得非常困难。
[0003]在这种复杂场景下,在并行计算执行过程中,易出现某个计算资源闲置等待其它依赖,某个数据子集同样的计算执行了多次,开发人员调整细节依赖让整个计算效率产生退化等等。所以有一个并行计算的调度策略是必要的,现有的并行计算并不能根据灵活多变的数据集以及依赖关系生成相应的调度策略,具体为:最基本的crontab方案是基于定时的系统,不能识别依赖;Mesos、yarn等调度框架能识别依本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于依赖传递的并行计算调度方法,其特征在于,所述基于依赖传递的并行计算调度方法包括:获取对各个数据子集定义的依赖信息;所述依赖信息是指各个所述数据子集之间在逻辑计算上的关联信息;根据所述依赖信息确定各个所述数据子集的依赖关系,并结合所述依赖关系构建依赖树;确定所述依赖树中不存在依赖关系的数据子集为待计算数据子集,将所述待计算数据子集所涉及的多个计算任务以并行方式执行。2.根据权利要求1所述的基于依赖传递的并行计算调度方法,其特征在于,获取对各个数据子集定义的依赖信息的步骤包括:查找所述数据子集的逻辑计算过程;确定所述逻辑计算过程中的依赖元素;根据所述依赖元素与所述数据子集的依赖关系,对所述数据子集进行依赖定义,以明确所述依赖信息。3.根据权利要求1所述的基于依赖传递的并行计算调度方法,其特征在于,根据所述依赖信息确定各个所述数据子集的依赖关系,并结合所述依赖关系构建依赖树的步骤包括:根据所述依赖信息确定所述数据子集在计算时所处的层级;将每一个所述数据子集作为一个节点,结合所述层级,在各个所述数据子集中确定每一层级的汇聚节点;将所述汇聚节点作为下一层级的输入节点;遍历所有层级,直至确定计算终止时的节点后,根据所有节点的拓扑关系构建所述依赖树。4.根据权利要求1所述的基于依赖传递的并行计算调度方法,其特征在于,确定所述依赖树中不存在依赖关系的数据子集为待计算数据子集,将所述待计算数据子集所涉及的多个计算任务以并行方式执行的步骤包括:确定所述依赖树中不存在依赖关系的数据子集为待计算数据子集,将所述待计算数据子集确定为同一层级;在所述同一层级中以并行方式执行多个所述待计算数据子集的计算任务。5.根据权利要求2所述的基于依赖传递的并行计算调度方法,其特征在于,在确定所述依赖树中不存在依赖关系的数据子集为待计算数据子集,将所述待计算数据子集所涉及的多个计算任务以并行方式执行的步骤同时...

【专利技术属性】
技术研发人员:赵大鹏林娜娜李尤黄象贵
申请(专利权)人:上海宽带技术及应用工程研究中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1