存储设备、分布式存储系统以及数据处理方法技术方案

技术编号:24035673 阅读:27 留言:0更新日期:2020-05-07 01:50
本申请提供了一种存储设备、分布式存储系统以及数据处理方法,属于存储技术领域。本申请通过在存储设备内部设置AI装置,使得该存储设备具有AI计算的能力。另外,由于存储设备还包括处理器和硬盘,因此还具有业务数据存储的能力,从而实现了存储与AI算力的融合。AI参数以及业务数据在存储设备的内部通过高速互联网络进行传输,而无需经过外部网络的转发,因此极大地缩短了业务数据以及AI参数的传输路径,能够近距离地载入业务数据,从而提高了加载速度。

Storage device, distributed storage system and data processing method

【技术实现步骤摘要】
存储设备、分布式存储系统以及数据处理方法本申请要求于2019年8月22日提交的申请号为201910779723.9、专利技术名称为“存储设备、AI芯片、存储系统及AI计算方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及存储
,特别涉及一种存储设备、分布式存储系统以及数据处理方法。
技术介绍
随着存储技术以及人工智能(artificialintelligence,AI)技术的发展,存储设备中可以存储用于AI计算的业务数据,该业务数据例如可以是用于模型训练的样本集,比如说用于训练人脸识别模型的人脸图片集、用于训练语音识别模型的音频样本集、用于训练语义识别模型的样本文本等。以人脸图片集为例,由于待计算的数据量庞大,单个服务器已经不能满足计算需求,因此目前主流架构为多设备的集群式架构。在该架构中,包括AI集群、存储集群和交换机。其中AI集群由多个AI服务器组成,用于进行AI计算;存储集群由多个存储设备组成,用于存储业务数据;交换机用于在AI服务器与存储设备之间转发业务数据。在AI计算的过程中,AI服务器基于传输控制协议/因特网互联协议(transmissioncontrolprotocol/internetprotocol,TCP/IP)协议,与存储设备建立远程的网络连接。当AI服务器要获取AI计算所需的业务数据时,会通过交换机向存储设备发送数据获取请求,存储设备接收数据获取请求后,通过交换机向AI服务器发送存储的业务数据。然后,AI服务器再将该业务数据加载至内存,进行AI计算。r>在上述架构中,业务数据要从存储设备通过网络发送至交换机,再通过网络从交换机发送至AI服务器,才能让AI服务器得到业务数据来进行AI计算,可见AI计算的过程中获取业务数据的路径过长,造成获取业务数据的速度过慢,导致获取业务数据的效率低下。
技术实现思路
本申请实施例提供了一种存储设备、分布式存储系统以及数据处理方法,能够解决相关技术中业务数据获取速度过慢、获取效率低下的技术问题。所述技术方案如下:第一方面,提供了一种存储设备,包括处理器、硬盘和AI装置,所述AI装置和所述处理器之间通过高速互联网络通信;所述处理器,用于接收业务数据,并将所述业务数据存储至所述硬盘中;所述AI装置,用于向所述处理器发送数据获取请求以获取所述业务数据,并对所述业务数据进行AI计算。本实施例提供的存储设备,内部设置有AI装置,该存储设备既可以通过AI装置,提供AI计算的能力,又可以通过存储设备中的处理器和硬盘,提供业务数据存储的能力,从而实现了存储与AI算力的融合。当需要进行AI计算时,业务数据在存储设备的内部通过高速互联网络进行传输,而无需经过外部网络的转发,因此极大地缩短了业务数据的传输路径,能够近距离地载入业务数据,从而提高了加载速度。可选地,所述数据获取请求包括第一数据获取请求;所述处理器,用于响应于所述第一数据获取请求,从所述硬盘中获取所述业务数据,并将所述业务数据发送给所述AI装置。通过该方式,提供了一种AI装置就近获取业务数据的方法,由于存储设备内部包含了AI装置、处理器和硬盘,当AI装置要获取业务数据时,通过向处理器发送数据获取请求,由存储设备的处理器从本地的硬盘中获取业务数据,发送给AI处理器,使得AI处理器能够从本地得到业务数据,免去了通过网络向远端存储设备请求业务数据带来的通信开销,从而节省了获取业务数据的时延。可选地,所述数据获取请求包括第二数据获取请求;所述处理器,用于响应于所述第二数据获取请求,将所述业务数据的元数据发送给所述AI装置,所述元数据用于指示所述业务数据的地址;所述AI装置,用于当所述元数据指示所述业务数据位于所述存储设备本地时,向所述硬盘发送第一数据访问请求,所述第一数据访问请求包括所述元数据;所述硬盘,用于根据所述元数据获取所述业务数据,并通过DMA方式将所述业务数据写入所述AI装置。通过该方式,可以实现AI装置和硬盘之间的DMA直通,通过在AI装置和硬盘之间建立DMA通路,AI装置和硬盘能够利用DMA通路进行快速业务数据交换,从而提高AI装置载入业务数据的速度,进而提高AI装置可同时处理的业务数据量,从而降低AI装置之间的传输AI参数的通信开销,加快AI训练的速度。可选地,所述数据获取请求包括第三数据获取请求;所述处理器,用于响应于所述第三数据获取请求,将所述业务数据的元数据发送给所述AI装置,所述元数据用于指示所述业务数据的地址;所述AI装置,用于当所述元数据指示所述业务数据位于其他存储设备时,向所述其他存储设备发送第二数据访问请求,所述第二数据访问请求包括所述元数据。通过这种可选方式,AI装置的AI内存与其他存储设备实现了RDMA直通,通过AI内存和其他存储设备进行快速业务数据交换,加快AI训练的速度。可选地,所述存储设备还包括内存,所述处理器,还用于从所述内存中划分一段内存空间预留给所述AI装置使用。通过这种可选方式,AI装置能够借用存储装置的内存来进行AI计算,从而扩大了AI装置的可用内存空间,让AI装置能够在更大的内存上进行AI计算,从而提高AI计算的效率。可选地,所述AI装置包括AI处理器和AI内存;所述AI处理器用于当所述AI内存的可用容量达到预设阈值时,向所述处理器发送内存申请请求,所述AI内存的可用容量通过设定的批尺寸确定,所述内存申请请求用于请求所述处理器从所述内存中划分一段内存空间预留给所述AI装置使用。通过这种可选方式,AI处理器可以利用内存的内存空间来进行训练,那么由于可用的内存空间更大,能够提高AI训练的批尺寸,从而提高AI装置一批可处理的业务数据量,降低不同AI装置之间交换AI参数的通信开销,提高AI训练的速度。经实验,如果仅通过AI内存进行AI训练,批尺寸最高设定为256,而通过这种方式,可以将批尺寸设定为32000,由此可见,批尺寸得到显著提升。相关技术中,存储设备的内存的容量是固定的,这就导致存储业务数据时经常面临内存不足的问题。而通过这种可选方式,存储装置能够借用AI装置的AI内存来进行业务数据的读写,从而扩大了存储装置的可用内存空间,让存储装置能够在更大的内存上存储业务数据,从而节省业务数据的读写时间,提高业务数据的读写效率。可选地,所述AI装置包括AI处理器;所述AI处理器,用于将计算任务划分为至少两个子任务,将所述至少两个子任务中的第一子任务发送给所述处理器;所述处理器,还用于执行所述第一子任务,并将计算结果发送给所述AI处理器。通过这种可选方式,实现AI处理器和处理器的算力协同,AI处理器能够通过借用存储设备自身的处理器的算力,来提高AI处理器的算力,从而加快了AI处理器处理AI计算的速度。可选地,所述AI处理器,还用于在将计算任务划分为至少两个子任务之前确定所述AI处理器的算力不足。通过这种可选方式,AI处理器能够自身的算力不足时,借用处理器的算力来处理AI计算,从而打破了AI训练过程中算力资源不足的瓶颈。可选地,所述处理器,用于将计算任务划分为至少两个子任务,将所述至少两个子任本文档来自技高网...

【技术保护点】
1.一种存储设备,其特征在于,包括处理器、硬盘和人工智能AI装置,所述AI装置和所述处理器之间通过高速互联网络通信;/n所述处理器,用于接收业务数据,并将所述业务数据存储至所述硬盘中;/n所述AI装置,用于向所述处理器发送数据获取请求以获取所述业务数据,并对所述业务数据进行AI计算。/n

【技术特征摘要】
20190822 CN 20191077972391.一种存储设备,其特征在于,包括处理器、硬盘和人工智能AI装置,所述AI装置和所述处理器之间通过高速互联网络通信;
所述处理器,用于接收业务数据,并将所述业务数据存储至所述硬盘中;
所述AI装置,用于向所述处理器发送数据获取请求以获取所述业务数据,并对所述业务数据进行AI计算。


2.根据权利要求1所述的存储设备,其特征在于,所述数据获取请求包括第一数据获取请求;
所述处理器,用于响应于所述第一数据获取请求,从所述硬盘中获取所述业务数据,并将所述业务数据发送给所述AI装置。


3.根据权利要求1所述的存储设备,其特征在于,所述数据获取请求包括第二数据获取请求;
所述处理器,用于响应于所述第二数据获取请求,将所述业务数据的元数据发送给所述AI装置,所述元数据用于指示所述业务数据的地址;
所述AI装置,用于当所述元数据指示所述业务数据位于所述存储设备本地时,向所述硬盘发送第一数据访问请求,所述第一数据访问请求包括所述元数据;
所述硬盘,用于根据所述元数据获取所述业务数据,并通过直接内存存取DMA方式将所述业务数据写入所述AI装置。


4.根据权利要求1所述的存储设备,其特征在于,所述数据获取请求包括第三数据获取请求;
所述处理器,用于响应于所述第三数据获取请求,将所述业务数据的元数据发送给所述AI装置,所述元数据用于指示所述业务数据的地址;
所述AI装置,用于当所述元数据指示所述业务数据位于其他存储设备时,向所述其他存储设备发送第二数据访问请求,所述第二数据访问请求包括所述元数据。


5.根据权利要求1所述的存储设备,其特征在于,所述存储设备还包括内存,
所述处理器,还用于从所述内存中划分一段内存空间预留给所述AI装置使用。


6.根据权利要求5所述的存储设备,其特征在于,所述AI装置包括AI处理器和AI内存;
所述AI处理器用于当所述AI内存的可用容量达到预设阈值时向所述处理器发送内存申请请求,所述AI内存的可用容量通过设定的批尺寸确定,所述内存申请请求用于请求所述处理器从所述内存中划分一段内存空间预留给所述AI装置使用。


7.根据权利要求1所述的存储设备,其特征在于,所述AI装置包括AI处理器;
所述AI处理器,用于将计算任务划分为至少两个子任务,将所述至少两个子任务中的第一子任务发送给所述处理器,所述计算任务是指所述对所述业务数据进行AI计算;
所述处理器,还用于执行所述第一子任务,并将计算结果发送给所述AI处理器。


8.一种分布式存储系统,其特征在于,包括多个存储设备,所述多个存储设备中的第一存储设备包括第一处理器、第一硬盘和第一人工智能AI装置,所述第一AI装置和所述第一处理器之间通过高速互联网络通信;
所述第一处理器,用于接收业务数据,并将所述业务数据存储至所述第一硬盘中;
所述第一AI装置,用于向所述第一处理器发送数据获取请求以获取所述业务数据,并对所述业务数据进行AI计算。


9.根据权利要求8所述的系统,其特征在于,所述数据获取请求包括第一数据获取请求;
所述第一处理器,用于响应于所述第一数据获取请求,从所述第一硬盘中获取所述业务数据,并将所述业务数据发送给所述第一AI装置。


10.根据权利要求8所述的系统,其特征在于,所述数据获取请求包括第二数据获取请求;
所述第一处理器,用于响应于所述第二数据获取请求,将所述业务数据的元数据发送给所述第一AI装置,所述元数据用于指示所述业务数据的地址;
所述第一AI装置,用于当所述元数据指示所述业务数据位于所述第一存储设备本地时,向所述第一硬盘发送第一数据访问请求,所述第一数据访问请求包括所述元数据;
所述第一硬盘,用于根据所述元数据获取所述业务数据,并通过直接内存存取DMA方式将所述业务数据写入所述第一AI装置。


11.根据权利要求8所述的系统,其特征在于,所述数据获取请求包括第三数据获取请求;
所述第一处理器,用于响应于所述第三数据获取请求,将所述业务数据的元数据发送给所述第一AI装置,所述元数据用于指示所述业务数据的地址;
所述第一AI装置,用于当所述元数据指示所述业务数据位于所述多个存储设备中的第二存储设备时,向所述第二存储设备发送第二数据访问请求,所述第二数据访问请求包括所述元数据;接收所述第二存储设备响应于所述第二数据访问请求所发送的所述业务数据。


12.根据权利要求8所述的系统,其特征在于,
所述多个存储设备中的第二存储设备,用于通过第二网络将所述业务数据传输给所述第一存储设备;
所述第二存储设备,还用于通过第一网络将AI参数传输给所述第一存储设备,所述AI参数用于对所述业务数据进行AI计算。


13.根据权利要求12所述的系统,其特征在于,
所述第二存储设备,还用于通过所述第一网络将其他业务数据传输给所述第一存储设备;
所述第二存储设备,还用于通过所述第二网络传输其他AI参数,所述其他A...

【专利技术属性】
技术研发人员:刘进忠张洪岽
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1