数据处理方法及装置、系统、电子设备和存储介质制造方法及图纸

技术编号:23764246 阅读:47 留言:0更新日期:2020-04-11 19:00
本公开涉及一种数据处理方法及装置、系统、电子设备和存储介质。所述方法应用于一种数据处理系统中,数据处理系统包括多个集群,至少部分多个集群用于存储待处理的目标数据,多个集群包括第一集群和第二集群,目标数据包括第一目标数据;方法包括:获取第一索引数据,并根据第一索引数据,从第二集群的存储区域中获取第一目标数据;将第一目标数据缓存至第一集群的存储区域中,并生成目标数据的第二索引数据;根据第二索引数据,从第一集群的存储区域中获取第一目标数据,以通过第一集群的硬件资源对目标数据进行处理。

Data processing methods and devices, systems, electronic equipment and storage media

【技术实现步骤摘要】
数据处理方法及装置、系统、电子设备和存储介质
本公开涉及数据存储领域,尤其涉及一种数据处理方法及装置、系统、电子设备和存储介质。
技术介绍
随着计算机视觉等人工智能技术的快速发展和广泛应用,计算机视觉公司的业务也在快速迭代。为了应对更庞大,更复杂的业务场景,公司不断提升自身算力,采购大量图形处理器(GraphicsProcessingUnit,GPU)机器用于训练计算。然而随着业务需求的增加,在工业界和实践中,也不会无限制的去扩大一个集群,因此,在不扩大单个集群的情况下,目前亟需一种数据处理方法来满足海量数据处理的业务需求。
技术实现思路
本公开提出了一种数据处理方案。根据本公开的一方面,提供了一种数据处理方法,所述方法应用于一种数据处理系统中,所述数据处理系统包括多个集群,至少部分所述多个集群用于存储待处理的目标数据,所述多个集群包括第一集群和第二集群,所述目标数据包括第一目标数据;所述方法包括:获取第一索引数据,并根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据;将所述第一目标数据缓存至所述第一集本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法应用于一种数据处理系统中,所述数据处理系统包括多个集群,至少部分所述多个集群用于存储待处理的目标数据,所述多个集群包括第一集群和第二集群,所述目标数据包括第一目标数据;/n所述方法包括:/n获取第一索引数据,并根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据;/n将所述第一目标数据缓存至所述第一集群的存储区域中,并生成所述目标数据的第二索引数据;/n根据所述第二索引数据,从所述第一集群的存储区域中获取所述第一目标数据,以通过所述第一集群的硬件资源对所述目标数据进行处理。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法应用于一种数据处理系统中,所述数据处理系统包括多个集群,至少部分所述多个集群用于存储待处理的目标数据,所述多个集群包括第一集群和第二集群,所述目标数据包括第一目标数据;
所述方法包括:
获取第一索引数据,并根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据;
将所述第一目标数据缓存至所述第一集群的存储区域中,并生成所述目标数据的第二索引数据;
根据所述第二索引数据,从所述第一集群的存储区域中获取所述第一目标数据,以通过所述第一集群的硬件资源对所述目标数据进行处理。


2.根据权利要求1所述的方法,其特征在于,所述目标数据包括第二目标数据,所述方法还包括:
根据所述第二索引数据,从所述多个集群中除所述第一集群以外的其他集群的存储区域中,获取所述第二目标数据。


3.根据权利要求1或2所述的方法,其特征在于,所述存储区域包括内存区域和缓存区域;
所述根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据,包括:
根据所述第一索引数据以及所述第一集群的缓存区域的容量,从所述第二集群的内存区域中获取所述第一目标数据,所述第一目标数据的数据量小于或等于所述第一集群的缓存区域的容量。


4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述存储区域包括缓存区域,在所述根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据之前,所述方法还包括:
根据其他集群中每个集群与所述第一集群之间的传输带宽,和/或,所述其他集群中每个集群的缓存区域的容量,从所述多个集群中确定所述第二集群,所述其他集群包括所述多个集群中除所述第一集群以外的集群。


5.根据权利要求4所述的方法,其特征在于,所述根据其他集群中每个集群与所述第一集群之间的传输带宽和所述其他集群中每个集群的缓存区域的容量,从所述多个集群中确定所述第二集群,包括:
分别获取所述多个集群中每个集群的比例参数,所述比例参数包括缓存区域的容量与传输带宽中可用带宽之间的比值;
根据所述比例参数,确定所述第二集群,以使所述第二集群中所有集群的缓存区域的容量之和小于或等于所述第一集群的缓存区域的容量,且所述第二集群中所有集群的比例参数之和大于或等于阈值。


6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述存储区域包括内存区域;
在所述获取第一索引数据之前,所述方法还包括:
获取所述多个集群中每个集群的内存区域的存储空间;
根据所述存储空间,将待存储数据分布式存储至所述多个集群中至少部分集群的内存区域中,并生成所述待存储数据的索引数据,所述待存储数据的索引数据包括所述第一索引数据。


7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述数据处理系统包括存储设备,所述存储设备用于存储所述第一索引数据和/或所述第二索引数据。


8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述第一索引数据包括所述目标数据的存储途径,所述第二索引数据包括至少部分所述目标数据的缓存途径;
所述目标数据的存储途径包括存储标识、用于存储所述目标数据的集群标识、所述目标数据所属数据块标识,以及所述目标数据标识;
所述目标数据的缓存途径包括缓存标识、所述目标数据所属数据块标识,以及所述目标数据标识。


9.一种数据处理装置,其特征在于,所述装置应用于一种数据处理系统中,所述数据处理系统包括多个集群,至少部分所述多个集群用于存储待处理的目标数据,所述多个集群包括第一集群和第二集群,所述目标数据包括第一目标数据;
所述装置包括:
获取模块,用于获取第一索引数据,并根据所述第一索引数据,从所述第二集群的存储区域中获取第一目标数据;
生成模块,用于将所述第一目标数据缓存至所述第一集群的存储区域中,并生成所述目标数据的第二索引数据;
处理模块,用于根据所述第二索引数据...

【专利技术属性】
技术研发人员:韦皓诚赵伟
申请(专利权)人:深圳市商汤科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1