【技术实现步骤摘要】
本专利技术涉及大数据处理分布式计算任务调度领域,特别涉及面向大数据平台基于内存数据局部性的调度方法及系统。
技术介绍
大数据时代,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长,大数据计算平台是针对海量数据的处理而产生的分布式计算系统(如图1所示),可以将用户作业(用户提交的一项工作的基本单位)分成不同的任务(用户作业的一部分工作)同时执行加快作业执行速度,当作业所在计算节点与其数据数据节点不同时会导致并发作业产生大量的并发读写操作,平台网络带宽因大规模数据搬运而导致高度拥塞,进而导致作业因数据获得不及时而大量延误。对任务调度的方法不合理可能会导致任务执行时间的延长,从而增加整个作业的执行时间,因此如何能够使任务在调度时快速读取所需数据,从而减少任务执行时间是最大化利用数据局部性原则和优化任务调度算法的关键问题之一。为此,大量研究集中在如何调度任务,减少任务执行时读取数据时间,从而降低任务执行时间,其中,数据局部性是重要的方法之一,现有大数据计算平台的数据局部性包括三级,分别是节点局部性、机架局部性和数据中心局部性。专利技术一种面向Hadoop的动态调度方法,提供一种面向大数据计算平台的动态调度方法,这个专利技术可以有效地解决现有调度算法在调度实时作业上响应时间方面的不足,并对实时作业进行资源控制,以此提高实时作业效率的能力, ...
【技术保护点】
一种面向大数据平台基于内存数据局部性的调度方法,其特征在于,包括:步骤1,周期性获取数据节点内存中缓存的数据块,并周期性向存储管理节点汇报所述数据节点的内存数据块信息;步骤2,获取用户提交的作业,计算节点对所述作业进行分片,当所述计算节点填写作业分片信息时,将所述内存数据块信息写入所述作业分片信息中;步骤3,所述计算节点根据所述作业分片信息创建待执行任务,为所述待执行任务进行资源申请请求,所述计算节点根据所述资源申请请求,将资源节点分配给所述待执行任务。
【技术特征摘要】
1.一种面向大数据平台基于内存数据局部性的调度方法,其特征在于,包
括:
步骤1,周期性获取数据节点内存中缓存的数据块,并周期性向存储管理
节点汇报所述数据节点的内存数据块信息;
步骤2,获取用户提交的作业,计算节点对所述作业进行分片,当所述计
算节点填写作业分片信息时,将所述内存数据块信息写入所述作业分片信息中;
步骤3,所述计算节点根据所述作业分片信息创建待执行任务,为所述待
执行任务进行资源申请请求,所述计算节点根据所述资源申请请求,将资源节
点分配给所述待执行任务。
2.如权利要求1所述的面向大数据平台基于内存数据局部性的调度方法,
其特征在于,所述步骤1包括所述存储管理节点收到各所述数据节点发送的所
述内存数据块信息,将各所述数据节点的所述内存数据块信息进行汇总,保存
在所述存储管理节点的内存中。
3.如权利要求1所述的面向大数据平台基于内存数据局部性的调度方法,
其特征在于,所述步骤2包括用户提交作业,计算节点根据用户输入的文件路
径,向所述存储管理节点请求文件所包括数据块的位置;
所述存储管理节点根据所述文件路径,查找与所述文件路径相对应的文件,
并查看所述文件与数据块的对应关系,并根据数据块的内存数据块信息查询数
据块在内存中缓存节点位置,将包括起始位置、长度、磁盘节点位置、缓存节
点位置的内存数据块信息返回给所述计算节点;
所述计算节点根据所述缓存节点位置,以及大数据计算平台配置文件,创
建作业分片信息,将所述缓存节点位置写入作业分片信息。
4.如权利要求1所述的面向大数据平台基于内存数据局部性的调度方法,
其特征在于,所述步骤3包括所述计算节点读取作业分片信息,根据作业分片
数量创建对应数量的所述待执行任务;
根据所述待执行任务所需的内存中缓存节点位置,创建对应的资源申请请
求,并发送给所述存储管理节点请求资源。
5.如权利要求1所述的面向大数据平台基于内存数据局部性的调度方法,
其特征在于,所述步骤3还包括所述计算节点收到分配的资源节点,检查资源
\t所在节点;
根据所述待执行任务的优先级与资源类型获取对应的任务队列;
依次查询所述待执行任务的所需数据所在的节点与分配的资源节点是否
一致,若一致,则检查所需数据是否存放在所在节点的内存中,若是,则将资
源节点分配给所述待执行任务,否则检查下一个所述待执行任务;
若未发现任务所需数据存放在所在的节点的内存中,则从头开始检查所述
待执行任务所需数据是否存放在所在的节点的磁盘中,将所述资源节点分配给
匹配的第一个所述待执行任务;
若未发现所述待执行任务满足节点匹配,则检查所有所述待执行任务所需
资源节点是否与资源节点处于同一机架上,若是,分配资源节点给匹配的第一
个所述待执行任务;
若未发现所述待执行任务满足机架匹配,则检查所有所述待执行任务所需
资源节点是否与资源节点处于同一数据中心,若是,则分配资源给匹配的第一
个所述待执行任务,否则,资源节点分配给所述任务队列中的第一个所述待执
行任务。
6.一种面向大数据平台基于内存数据局部性的调度系统,其特征在...
【专利技术属性】
技术研发人员:王佳琪,孙毓忠,宋莹,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。