用于训练模型的共享存储的系统技术方案

技术编号:22308030 阅读:19 留言:0更新日期:2019-10-16 08:08
本发明专利技术提供了一种用于训练模型的共享存储的系统,包括:多台第一物理机构成的第一集群,提供分布式共享存储;多台第二物理机构成的第二集群,提供虚拟机;调度平台,调度所述第二集群,从而使得所述分布式共享存储挂载在所述虚拟机上。由此可见,本发明专利技术实施例实现了一种基于共享存储的虚拟化系统,可以用户进行模型训练。通过大规模集群的支持,基于共享存储和虚拟化,极大地提升在机器学习训练中的效率,提升用户体验。

Shared storage system for training model

【技术实现步骤摘要】
用于训练模型的共享存储的系统
本专利技术涉及机器学习领域,更具体地涉及一种用于训练模型的共享存储的系统。
技术介绍
随着机器学习的兴起,如何得到训练模型受到越来越多的关注。由于训练是基于大量的样本数据进行的,因此对存储的要求很高。考虑到训练模型的环境,目前的一种方案是基于Docker容器化环境,由于Docker容器是一个开源的应用容器引擎,很容易进行移植,也可以实现虚拟化,因此,使用Docker容器化使得环境容易搭建,速度很快。但是,由于容器相互之间不会有任何接口,容器的存储环境之间互相隔离,很难共享数据,就算共享数据,也会有很多意想不到的问题。另外,基于容器也有很多问题,内核级别隔离性不太好,在共享存储下会存在很多不稳定的因素,对于用户的使用体验十分的不好。
技术实现思路
本专利技术提供了一种用于训练模型的共享存储的系统,能够保证系统的稳定性,提升用户体验。本专利技术所提供的用于训练模型的共享存储的系统,包括:多台第一物理机构成的第一集群,提供分布式共享存储;多台第二物理机构成的第二集群,提供虚拟机;调度平台,调度所述第二集群,从而使得所述分布式共享存储挂载在所述虚拟机上。在本专利技术的一种实现方式中,调度平台调度所述第二集群,包括:所述调度平台从所述第二集群中选择若干台第二物理机,并向所述若干台第二物理机发送调度请求。在本专利技术的一种实现方式中,所述第二集群中的所述若干台第二物理机在接收到调度请求后,启动虚拟机,并为各自的虚拟机分配硬件资源。在本专利技术的一种实现方式中,所述第一集群所提供的所述分布式共享存储挂载在所述若干台第二物理机所启动的虚拟机上。在本专利技术的一种实现方式中,所述第二集群中的每台第二物理机上设置有代理,所述代理获取其所在的第二物理机的虚拟机信息,并将所获取的虚拟机信息发送至所述调度平台。在本专利技术的一种实现方式中,所述调度平台根据所述虚拟机信息,使用调度算法进行调度。在本专利技术的一种实现方式中,设置所述若干台第二物理机中的某台第二物理机作为服务机,且所述若干台第二物理机中的其他第二物理机作为工人机。其中,所述服务机提供网络文件系统NFS服务,所述工人机挂载并使用所述NFS服务。这样,能够保证共享存储支持多写多读,并且充分利用存储的稳定性,保证了整个系统的稳定性,避免出现性能和稳定性的瓶颈。在本专利技术的一种实现方式中,所述服务机的虚拟机所挂载的块存储RBD作为所述NFS服务的服务器。在本专利技术的一种实现方式中,所述服务机的互联网协议IP地址或者域名是固定的。在本专利技术的一种实现方式中,当所述某台第二物理机的状态变差且无法保证程序正常运行时,进行迁移以将另一台第二物理机作为所述服务机。这样,能够保证当前的服务机的状态和性能,从而保证整个系统的稳定性,避免由于服务机的状态不佳而影响了整个系统的性能。在本专利技术的一种实现方式中,还包括:控制中心,接收用户请求,并向所述调度平台发送指令;其中,所述调度平台在接收到所述指令后调度所述第二集群。由此可见,本专利技术实施例实现了一种基于共享存储的虚拟化系统,可以用户进行模型训练。通过大规模集群的支持,基于共享存储和虚拟化,极大地提升在机器学习训练中的效率,提升用户体验。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是本专利技术实施例的用于训练模型的共享存储的系统的一个示例性框图;图2是本专利技术实施例的提供虚拟化的系统的一个示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。共享存储是指两个或多个处理机共用一个主存储器的并行体系结构。每一个处理机都可以把信息存入主存储器,或从中取出信息。处理机之间的通信通过访问共享存储器来实现。本专利技术实施例选择一种大规模的分布式共享存储,能够提供一种稳定的高效的大规模存储方案,例如,分布式文件系统Ceph,HDFS等。Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是:对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是Ceph的块设备存储,比如在OpenStack项目里,Ceph的块设备存储可以对接OpenStack的cinder后端存储、Glance的镜像存储和虚拟机的数据存储,比较直观的是Ceph集群可以提供一个raw格式的块存储来作为虚拟机实例的硬盘。Ceph相比其它存储的优势点在于它不单单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡,同时由于Ceph的良好设计,采用了CRUSH算法、HASH环等方法,使得它不存在传统的单点故障的问题,且随着规模的扩大性能并不会受到影响。在分布式存储系统中比较关注的一点是如何使得数据能够分布得更加均衡,常见的数据分布算法有一致性Hash和Ceph的Crush算法。Crush是一种伪随机的控制数据分布、复制的算法,Ceph是为大规模分布式存储而设计的,数据分布算法必须能够满足在大规模的集群下数据依然能够快速的准确的计算存放位置,同时能够在硬件故障或扩展硬件设备时做到尽可能小的数据迁移,Ceph的CRUSH算法就是精心为这些特性设计的,可以说CRUSH算法也是Ceph的核心之一。HDFS(HadoopDistributedFileSystem)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoopCore项目的一部分。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据。本专利技术实施例所选择的大规模的分布式共享存储能够在大规模集群中比较方便地搭建和访问,并且本专利技术实施例的集群网络也能够很方便的访问到该大规模的分布式共享存储。为了便于训练机器学习的模型,本专利技术实施例提供了多台第一物理机构成的第一集群,可称为大规模的分布式共享存储集群或者大规模共享存储集群等等。第一集群包括大量的第一物理机(或者也可以称为处理机),能够提供共享存储,具体地提供分布式共享存储。本文档来自技高网...

【技术保护点】
1.一种用于训练模型的共享存储的系统,其特征在于,所述系统包括:多台第一物理机构成的第一集群,提供分布式共享存储;多台第二物理机构成的第二集群,提供虚拟机;调度平台,调度所述第二集群,从而使得所述分布式共享存储挂载在所述虚拟机上。

【技术特征摘要】
1.一种用于训练模型的共享存储的系统,其特征在于,所述系统包括:多台第一物理机构成的第一集群,提供分布式共享存储;多台第二物理机构成的第二集群,提供虚拟机;调度平台,调度所述第二集群,从而使得所述分布式共享存储挂载在所述虚拟机上。2.根据权利要求1所述的系统,其特征在于,调度平台调度所述第二集群,包括:所述调度平台从所述第二集群中选择若干台第二物理机,并向所述若干台第二物理机发送调度请求。3.根据权利要求2所述的系统,其特征在于,所述第二集群中的所述若干台第二物理机在接收到调度请求后,启动虚拟机,并为各自的虚拟机分配硬件资源。4.根据权利要求3所述的系统,其特征在于,所述第一集群所提供的所述分布式共享存储挂载在所述若干台第二物理机所启动的虚拟机上。5.根据权利要求1所述的系统,其特征在于,所述第二集群中的每台第二物理机上设置有代理,所述代理获取其所在的第二物理机的虚拟机信息,并将所获取的虚拟机信息发送至所述调度平台。6....

【专利技术属性】
技术研发人员:黄维啸王曙光
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1