一种对存储训练数据的云存储系统的监测方法及装置制造方法及图纸

技术编号:28978021 阅读:29 留言:0更新日期:2021-06-23 09:23
本发明专利技术实施例提供了一种对存储训练数据的云存储系统的监测方法及装置,上述方法包括:每个虚拟任务执行卡的缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从内存资源中获得待训练模型所需要的待训练数据;任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将硬件状态信息存储至预设的监测数据存储数据库中。采用上述方法,实现了对存储训练数据的存储系统运行状态的有效监测。

【技术实现步骤摘要】
一种对存储训练数据的云存储系统的监测方法及装置
本专利技术涉及存储系统的监测
,特别是涉及一种对存储训练数据的云存储系统的监测方法及装置。
技术介绍
随着深度学习驱动的AI服务越来越多,对深度学习模型进行训练的工作越来越多。对深度学习模型进行训练往往需要大量的训练数据,而且模型训练过程中,训练数据会被频繁的读/写,这就对存储训练数据的设备提出了很高的要求。为此,专用于存储训练数据的云存储系统应运而生。然而,专用于存储训练数据的云存储系统在运行时的状态如何,目前还没有有效的监测方法。
技术实现思路
本专利技术实施例的目的在于提供一种对存储训练数据的云存储系统的监测方法及装置,以实现对存储训练数据的存储系统运行状态的有效监测。为了达到上述目的,本专利技术实施例提供了一种对存储训练数据的存储系统的监测方法;所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚本文档来自技高网...

【技术保护点】
1.一种对存储训练数据的云存储系统的监测方法,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;/n所述监测方法,包括:/n每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求...

【技术特征摘要】
1.一种对存储训练数据的云存储系统的监测方法,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,实现任务执行器功能、数据连接器功能和缓存管理器功能;
所述监测方法,包括:
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息,发送给所述任务监测器;其中,执行一个训练任务过程包括:缓存管理器从数据连接器接收任务执行器发送的数据加载请求,判断所述内存资源中是否存储有待训练模型所需要的待训练数据,如果有,则从所述内存资源中获得待训练模型所需要的待训练数据;如果没有,则从所述磁盘资源中获得所述待训练模型所需要的待训练数据返回给任务执行器执行任务;
所述任务监测器,接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,并将所述硬件状态信息存储至预设的监测数据存储数据库中。


2.根据权利要求1所述的方法,其特征在于,该方法还包括:
所述每个虚拟任务执行卡的所述缓存管理器,还记录执行一个训练任务过程中读取的数据的统计信息,发送给所述任务监测器;一个训练任务过程中读取的数据的统计信息包括:该训练任务过程中读取的文件数;
所述任务监测器,还接收云存储系统中,各个虚拟任务执行卡发送的执行一个训练任务过程中读取的数据的统计信息,并存储至预设的监测数据存储数据库中。


3.根据权利要求1或2所述的方法,其特征在于,每个虚拟任务执行卡的处理器资源包括:CPU处理器和GPU处理器;
每个虚拟任务执行卡的所述缓存管理器,记录执行一个训练任务过程中的处理器的硬件状态信息的步骤,包括:记录执行一个训练任务过程中的每一个卡的GPU利用率和CPU的利用率。


4.根据权利要求1所述的方法,其特征在于,所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库之前,还包括:
基于各个训练任务的ID,针对每个训练任务生成硬件状态信息的统计表;
所述任务监测器,在将所述硬件状态信息存储至预设的监测数据存储数据库的步骤,包括:将每个训练任务生成硬件状态信息的统计表存储至预设的监测数据存储数据库。


5.根据权利要求1所述的方法,其特征在于,在所述任务监测器,将所述硬件状态信息存储至预设的监测数据存储数据库之后,还包括:
所述任务管理器,向预设的监测数据存储数据库发送数据请求;所述数据请求包括:指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息;
所述任务监测器在接收到所述任务管理器发送的数据请求后,将指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息发送至所述任务管理器;所述任务管理器,基于指定时间段内的各个虚拟任务执行卡发送的执行一个训练任务过程中的处理器的硬件状态信息,重新调整训练任务。


6.一种对存储训练数据的云存储系统的监测方法,其特征在于,所述云存储系统,搭建在多台虚拟服务器上,所述各台虚拟服务器提供所述云存储系统所需的处理器资源、内存资源和磁盘资源;所述处理器资源,从逻辑上划分成云存储系统的任务管理器、任务监测器和多个虚拟任务执行卡;每个虚拟任务执行卡的处理器资源用于针对任务管理器分配的一个训练任务,...

【专利技术属性】
技术研发人员:余虹建李锦丰朱军
申请(专利权)人:北京聚云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1