本发明专利技术提供一种集群MIC作业的管理及调度方法,内容包括:管理进程IM服务器、作业提交的命令imsub及参数-mics、MIC作业查看命令imjobs、计算节点查看命令imnodes。该方法通过管理进程(IM服务器)记录集群中其他所有节点(计算节点)的MIC资源总数及使用情况。当作业在管理节点上提交时,以命令参数的形式指明所需的mic数。管理节点检查集群中所有计算节点,找到有足够mic资源的计算节点,并将作业发送至该节点进行计算。本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种集群MIC作业的管理及调度方法,使得集群MIC资源得到充分利用,有效提高MIC处理复杂作业的能力。
【技术实现步骤摘要】
本专利技术涉及计算机领域,具体的说是一种集群MIC作业的管理及调度方法。
技术介绍
英特尔集成众核(MIC)跟通用的多核处理器相比,具有更小的内核和硬件线程,计算资源密度更高,片上通信开销显著降低,具有更多的晶体管和能量,能够胜任更为复杂的并行应用。但是当前主流的集群资源管理及调度系统还没有添加对MIC作业的支持,此时存在以下两个问题1) MIC作业提交至作业管理系统,系统无法知道集群中哪些节点具有MIC资源,从而无法将作业调度至相应的MIC节点上。2) MIC作业提交至作业管理系统时,即使被调度至相应的MIC节点上,但是作业管理系统并不知道此时MIC卡上是否已有作业运行,一块MIC卡上只能运行一个作业,如果两个或多个作业被调度到同一块MIC卡上,会造成作业运行错误。
技术实现思路
本专利技术针对现有技术的不足,提供一种集群MIC作业的管理及调度方法。本专利技术是在高性能计算集群中,将英特尔MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度的方法,其解决所述技术问题的方法内容包括管理进程IM服务器、作业提交的命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes ; 其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况;作业提交的命令imsub及参数-mics,可以使作业运行在指定的MIC卡上,作业提交的命令imsub,负责作业脚本提交,参数-mics,负责记录作业脚本运行时所需的mic数,例如使用imsub - mics 2 job. sh提交一个需要2个mic卡的作业job. sh ;作业查看命令imjobs,负责查看当前集群所有MIC作业的运行状态,且可以将JobQueue文件内显示出来,可查看集群中等待的MIC作业情况;计算节点查看命令imnodes,可以将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况。本专利技术提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程如下 通过一个管理进程頂服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,頂服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job. sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。具体调度过程如下作业通过isub job4. sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,I为运行作业,O为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由O变为I ;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由I变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,頂服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。本专利技术一种集群MIC作业的管理及调度方法的有益效果是本方法克服了传统集群资源管理及调度不支持MIC作业的问题,提出了一种将MIC众核处理器作为计算资源,根据作业需求对MIC资源进行分配及调度的方法,使得集群MIC资源得到充分利用,并保证作业的正确运行,有效提高MIC处理复杂作业的能力。附图说明 附图I是集群MIC作业的管理及调度方法的系统流程图。具体实施例方式下面结合附图I对本专利技术一种集群MIC作业的管理及调度方法作进一步说明。本方法通过一个管理进程(頂服务器),对集群中的MIC资源信息及使用状态进行统计并保存,以便新提交的MIC作业能够分配至合适的MIC卡上运行;提供一个MIC作业提交命令imsub及参数-mics,可以使作业运行在指定的MIC卡上;提供一个MIC作业查看命令imjobs,可以查看当前集群所有MIC作业运行状态;提供一个计算节点查看命令imnodes,可以查看当前集群中所有计算节点上的MIC使用信息。本专利技术提供的MIC作业管理及调度方法,管理端进程对整个集群的MIC资源进行统计及监控,可以保证新提交的MIC作业在合适的计算节点上运行。该方法的具体管理过程为 通过一个管理进程頂服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲计算节点上进行计算,否则,将该作业提交命令(isub job. sh)保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行。该方法的调度流程叙述如下 作业通过isub job4. sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡(每个节点后面每个数字代表一个MIC卡,I为运行作业,O为空闲),如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息(由O变为I);否则,将作业保存至等待队列中。作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由I变为0,表示该MIC已经空闲。此时,集群中有MIC卡空闲,頂服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。除说明书所述的技术特征外,均为本专业技术人员的已知技术。本文档来自技高网...
【技术保护点】
一种集群MIC作业的管理及调度方法,其特征在于在高性能计算集群中,将MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度,内容包括:管理进程IM服务器、作业提交命令imsub及参数?mics、作业查看命令imjobs、计算节点查看命令imnodes;其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况,以便新提交的MIC作业能够分配至合适的MIC卡上运行;作业提交的命令imsub及参数?mics,使作业运行在指定的MIC卡上,作业提交的命令imsub负责作业脚本提交,参数?mics负责记录作业脚本运行时所需的mic数;作业查看命令imjobs负责查看当前集群中MIC作业的运行状态,将JobQueue文件内显示出来,以此查看集群中等待的MIC作业情况;计算节点查看命令imnodes将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况,具体管理过程如下:通过一个管理进程IM服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取该计算节点的MIC总数目及已使用MIC卡序号,并将结果保存在NodeMicInfo文件中,当MIC作业通过isub命令提交时,以命令参数的形式指明所需的mic数,IM服务器检查NodeMicInfo文件,将作业调度到有足够mic资源的空闲节点上进行计算,否则,将该作业提交命令isub?job.sh保存在JobQueue中,当作业运行完成后,MIC资源得到释放,IM服务器从JobQueue中取出作业再次调度执行;具体调度过程如下:作业通过?isub?job4.sh形式提交至管理进程IM服务器,IM服务器检查NodeMicInfo文件查看是否有空闲MIC卡,其中,每个节点后面每个数字代表一个MIC卡,1为运行作业,0为空闲,如果有,则将作业调度至该MIC卡上执行,并修改该MIC信息由0变为1;否则,将作业保存至等待队列中,作业完成后,修改NodeMicInfo文件信息,将刚刚运行该作业的MIC卡信息由1变为0,表示该MIC已经空闲,此时,集群中有MIC卡空闲,IM服务器检查作业等待列表中是否有作业等待,如果有,则将等待的作业重新调度执行。...
【技术特征摘要】
1.一种集群Mic作业的管理及调度方法,其特征在于在高性能计算集群中,将MIC众核处理器作为一种计算资源,对MIC资源进行管理及调度,内容包括管理进程IM服务器、作业提交命令imsub及参数-mics、作业查看命令imjobs、计算节点查看命令imnodes ; 其中管理进程IM服务器,负责统计、保存集群中各个计算节点的MIC资源总数及使用情况,以便新提交的MIC作业能够分配至合适的MIC卡上运行;作业提交的命令imsub及参数-mics,使作业运行在指定的MIC卡上,作业提交的命令imsub负责作业脚本提交,参数-mics负责记录作业脚本运行时所需的mic数;作业查看命令imjobs负责查看当前集群中MIC作业的运行状态,将JobQueue文件内显示出来,以此查看集群中等待的MIC作业情况;计算节点查看命令imnodes将NodeMicInfo文件内容显示出来,负责查看当前集群中计算节点MIC资源使用情况,具体管理过程如下 通过一个管理进程頂服务器,利用ssh命令连接至集群中的各个计算节点,在各个计算节点运行micinfo监控命令,获取...
【专利技术属性】
技术研发人员:张云,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。