一种GPU显存管理控制方法及相关装置制造方法及图纸

技术编号:23606037 阅读:17 留言:0更新日期:2020-03-28 06:48
本申请公开了一种GPU显存管理控制方法,包括:按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;对所述超分配任务执行中止操作。通过从GPU显存获取到的显存使用情况数据,然后将该数据转码为显存使用情况占位符,最后根据该显存使用情况占位符进行显存使用监控,实现了对GPU显存进行准确及时的监控管理操作,提高了显存使用效率。本申请还公开了一种GPU显存管理控制装置、服务器以及计算机可读存储介质,具有以上有益效果。

A management and control method of GPU display memory and related devices

【技术实现步骤摘要】
一种GPU显存管理控制方法及相关装置
本申请涉及计算机
,特别涉及一种GPU显存管理控制方法、GPU显存管理控制装置、服务器以及计算机可读存储介质。
技术介绍
随着信息技术的不断发展,为了使计算机使用更加智能化,出现了AI深度学习技术。在设备中使用AI深度学习技术可以使数据处理更加智能化。进一步,为了提高深度学习的速度,在深度学习领域中采用GPU(GraphicsProcessingUnit图形处理器)对深度学习进行加速。但是,目前GPU卡的成本较高,不得不充分使用GPU的性能。目前,需要使用GPU卡的场景包括模型开发场景和模型训练场景。但是,GPU目前的显存都比较大,并且使用的GPU卡的模型开发场景或者是模型训练场景都没有办法将GPU中的显存进行百分之百的使用。并且,在另一种显存使用情况中,一般只在客户开发的情况下使用GPU,调试模型是并不需要大量的显存进行调试。可见,此情况下无需使用过多的显存。还在另一中显存使用情况中,在对模型进行测试的过程中,才会使用到GPU的性能。可见,现有技术中在使用GPU调试模型的过程中,由于GPU显存较大,每个任务使用GPU显存情况复杂,无法对GPU中的任务使用GPU显存的情况进行准确及时的监控管理操作,进而降低了对GPU显存使用的监控力度,容易导致GPU显存使用者对显存进行滥用,不控制显存的大小,进一步造成GPU性能资源浪费。因此,如何对GPU显存进行准确及时的监控管理操作是本领域技术人员关注的重点问题。
技术实现思路
本申请的目的是提供一种GPU显存管理控制方法、GPU显存管理控制装置、服务器以及计算机可读存储介质,通过从GPU显存获取到的显存使用情况数据,然后将该数据转码为显存使用情况占位符,最后根据该显存使用情况占位符进行显存使用监控,实现了对GPU显存进行准确及时的监控管理操作,提高了显存使用效率。为解决上述技术问题,本申请提供一种GPU显存管理控制方法,包括:按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;对所述超分配任务执行中止操作。可选的,按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据,包括:当所述GPU显存中存在状态发生变化的任务时,将所述任务的显存情况按照所述预设数据结构进行记录,得到所述显存使用数据。可选的,将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符,包括:将所述显存使用情况数据中的任务名称进行十六进制转换,得到名称码;将所述显存使用情况数据中的GPU卡号和显存使用大小进行占位符转换,得到占位符码;将所述名称码和所述占位符码组合为所述显存使用情况占位符。可选的,根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务,包括:按照预设周期将所述显存分配表与所述显存使用情况占位符进行占位符差值运算,得到显存差值;将所述显存差值大于预设显存的任务作为峰值任务;判断峰值任务的存在时间是否大于阈值时间;若是,将该峰值任务作为所述超分配任务。可选的,还包括:当定位任务时,根据所述任务对应的显存使用情况占位符确定所述任务对应的pod信息和GPU卡信息,实现任务的定位操作。本申请还提供一种GPU显存管理控制装置,包括:显存数据获取模块,用于按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;显存数据转码模块,用于将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;显存监控模块,用于根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;超限任务处理模块,用于对所述超分配任务执行中止操作。可选的,所述显存数据获取模块,具体用于当所述GPU显存中存在状态发生变化的任务时,将所述任务的显存情况按照所述预设数据结构进行记录,得到所述显存使用数据。可选的,所述显存数据转码模块,包括:名称码转换单元,用于将所述显存使用情况数据中的任务名称进行十六进制转换,得到名称码;占位符码转换单元,用于将所述显存使用情况数据中的GPU卡号和显存使用大小进行占位符转换,得到占位符码;占位符组合单元,用于将所述名称码和所述占位符码组合为所述显存使用情况占位符。可选的,所述显存监控模块,包括:显存差值计算单元,用于按照预设周期将所述显存分配表与所述显存使用情况占位符进行占位符差值运算,得到显存差值;峰值任务获取单元,用于将所述显存差值大于预设显存的任务作为峰值任务;延时判断单元,用于判断峰值任务的存在时间是否大于阈值时间;超分配任务获取单元,用于当所述峰值任务的存在时间大于阈值时间时,将该峰值任务作为所述超分配任务。本申请还提供一种服务器,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的GPU显存管理控制方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的GPU显存管理控制方法的步骤。本申请所提供的一种GPU显存管理控制方法,包括:按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;对所述超分配任务执行中止操作。通过按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据,采用预设的数据结构获取显存使用情况,避免了数据混乱的情况,然后将显存使用情况进行占位符转码得到显存使用情况占位符,最后通过该显存使用情况占位符进行监控操作,也就是可以直接进行占位符运算,提高了监控效率,保持监控的及时性和准确性,进一步的,通过显存使用监控得到了超分配任务,最后将超分配任务进行中止,也就是结束执行超出显存分配的任务,避免了对GPU显存资源进一步占用,使各个任务均按照分配的显存执行,提高管理控制操作的有效性。本申请还提供一种GPU显存管理控制装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不作赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种GPU显存管理控制方法的流程图;图2为本申请实施例所提供的一种GPU显存管理控制装置的结构示意图。具体实施方式本申请的核心是提供一种GPU显存管理控制方法、GPU显存管理控制装置、服务器以及计算本文档来自技高网...

【技术保护点】
1.一种GPU显存管理控制方法,其特征在于,包括:/n按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;/n将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;/n根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;/n对所述超分配任务执行中止操作。/n

【技术特征摘要】
1.一种GPU显存管理控制方法,其特征在于,包括:
按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据;
将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符;
根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务;
对所述超分配任务执行中止操作。


2.根据权利要求1所述的GPU显存管理控制方法,其特征在于,按照预设数据结构从GPU显存中获取到所有任务的显存使用情况数据,包括:
当所述GPU显存中存在状态发生变化的任务时,将所述任务的显存情况按照所述预设数据结构进行记录,得到所述显存使用数据。


3.根据权利要求1所述的GPU显存管理控制方法,其特征在于,将所述显存使用情况数据进行占位符转码,得到显存使用情况占位符,包括:
将所述显存使用情况数据中的任务名称进行十六进制转换,得到名称码;
将所述显存使用情况数据中的GPU卡号和显存使用大小进行占位符转换,得到占位符码;
将所述名称码和所述占位符码组合为所述显存使用情况占位符。


4.根据权利要求1所述的GPU显存管理控制方法,其特征在于,根据显存分配表对所述显存使用情况占位符进行显存使用监控,得到超分配任务,包括:
按照预设周期将所述显存分配表与所述显存使用情况占位符进行占位符差值运算,得到显存差值;
将所述显存差值大于预设显存的任务作为峰值任务;
判断峰值任务的存在时间是否大于阈值时间;
若是,将该峰值任务作为所述超分配任务。


5.根据权利要求1所述的GPU显存管理控制方法,其特征在于,还包括:
当定位任务时,根据所述任务对应的显存使用情...

【专利技术属性】
技术研发人员:段国栋
申请(专利权)人:山东英信计算机技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1