数据存储方法、系统、装置、存储介质及程序产品制造方法及图纸

技术编号:37616351 阅读:9 留言:0更新日期:2023-05-18 12:07
本申请公开了一种数据存储方法、系统、装置、存储介质及程序产品,属于计算机数据处理领域。包括:接收执行节点发送的分布式存储数据,分布式存储数据为执行节点以分布式存储方式存储的数据;将分布式存储数据转移至本地磁盘中进行存储,本地磁盘为当前设备对应的本地存储区域;响应于本地磁盘符合数据上传条件,将本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,预设上传策略是基于本地磁盘中的平均文件大小确定的策略;响应于本地存储数据上传完成,从本地磁盘中对本地存储数据进行清除;实现协同本地存储和云端存储系统的效果,解决了存储计算无法分离而导致的大数据的工作负载无法有效部署在离线混部集群的问题。的问题。的问题。

【技术实现步骤摘要】
数据存储方法、系统、装置、存储介质及程序产品


[0001]本申请涉及计算机数据处理领域,特别涉及一种数据存储方法、系统、装置、存储介质及程序产品。

技术介绍

[0002]随着大数据时代的来临,由于单台计算机设备性能有限并不能完成较为复杂的计算任务,因此引入分布式计算框架的概念,分布式计算框架能够解决此类需要巨大计算机问题,利用服务器组成计算集群并提供一个并行计算软件框架,实现服务器之间的通信、负载均衡、任务计算与处理、任务存储等复杂的操作。
[0003]相关技术中,一般是利用分布式计算框架内的Shuffle(洗牌)服务节点将数据直接存储至本地磁盘或者直接将数据存储至分布式文件系统(HadoopDistributed File System,简称HDFS)中。
[0004]然而,不论采用直接上传至本地磁盘还是HDFS中,都是在Map(映射)节点将数据存储至各个节点中,无法实现数据的计算和存储分离,导致数据的工作负载无法有效部署在离线混部集群的问题。

技术实现思路

[0005]本申请实施例提供了一种数据存储方法、系统、装置、存储介质及程序产品,用于提高数据处理效率。所述技术方案如下:
[0006]一方面,提供了一种数据存储方法,应用于分布式计算框架内的中转服务节点中,所述方法包括:
[0007]接收执行节点发送的分布式存储数据,所述分布式存储数据为所述执行节点以分布式存储方式存储的数据;
[0008]将所述分布式存储数据转移至本地磁盘中进行存储,所述本地磁盘为当前设备对应的本地存储区域;
[0009]响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,所述预设上传策略是基于所述本地磁盘中的平均文件大小确定的策略;
[0010]响应于所述本地存储数据上传完成,从所述本地磁盘中对所述本地存储数据进行清除。
[0011]一方面,提供了一种数据存储系统,应用于分布式计算框架中,所述系统包括:
[0012]执行节点,用于对候选数据进行任务处理,得到分布式存储数据;向中转服务节点发送所述分布式存储数据,所述分布式存储数据为以分布式存储方式存储的数据;
[0013]中转服务节点,用于接收所述分布式存储数据;将所述分布式存储数据转移至本地磁盘中进行存储,所述本地磁盘为当前设备对应的本地存储区域;响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储
系统,所述预设上传策略是基于本地磁盘中的平均文件大小确定的策略;
[0014]云端存储系统,用于接收所述本地磁盘上传的本地存储数据;
[0015]所述中转服务节点,还用于响应于所述本地存储数据上传完成,从所述本地磁盘中对所述本地存储数据进行清除。
[0016]一方面,提供了一种数据存储装置,所述装置包括:
[0017]接收模块,被配置为接收执行节点发送的分布式存储数据,所述分布式存储数据为所述执行节点以分布式存储方式存储的数据;
[0018]存储模块,被配置为将所述分布式存储数据转移至本地磁盘中进行存储,所述本地磁盘为当前设备对应的本地存储区域;
[0019]上传模块,被配置为响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,所述预设上传策略是基于所述本地磁盘中的平均文件大小确定的策略;
[0020]清除模块,被配置为响应于所述数据上传完成,从所述本地磁盘中对所述数据进行清除。
[0021]一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器。所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的数据存储方法。
[0022]一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的数据存储方法。
[0023]一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序/指令,所述处理器执行所述计算机程序/指令,使得所述计算机设备执行以实现如上所述的数据存储方法。
[0024]本申请实施例提供的技术方案的有益效果是:
[0025]在本地磁盘和云端存储系统之间建立数据传输过程,将存储至本地磁盘的分布式存储数据按照预设上传策略上传至云端存储系统中,实现协同本地存储和云端存储系统的效果,解决了存储计算无法分离而导致的大数据的工作负载无法有效部署在离线混部集群的问题,一定程序上提高了数据的处理效率。
附图说明
[0026]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是本申请实施例提供的一种数据存储系统的示意图;
[0028]图2是基于图1提供的一种多级存储管理单元的示意图;
[0029]图3是本申请实施例提供的一种数据存储方法的流程图;
[0030]图4是基于图3示出的一种数据上传方式的示意图;
[0031]图5是基于图3示出的另一种数据上传方式的示意图;
[0032]图6是本申请另一实施例提供的一种数据存储方法的流程图;
[0033]图7是基于图6示出的一种主动上传的方法流程图;
[0034]图8是本申请另一实施例提供的一种数据存储方法的流程图;
[0035]图9是本申请一个实施例提供的一种数据存储装置的结构框图;
[0036]图10是本申请另一实施例提供的一种数据存储装置的结构框图;
[0037]图11是本申请一个示例性实施例提供的服务器的结构示意图;
[0038]图12是本申请实施例提供的一种服务器框架图。
具体实施方式
[0039]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0040]首先,针对本申请实施例中涉及的名词进行介绍:
[0041]分布式计算框架:将计算任务分担到多台服务器上,让每台服务器都承担一部分的计算任务和数据存储的任务。需要在分布式计算过程中完成获取每个任务对应的数据、合并计算结果以及执行错误计算的回滚操作。
[0042]本申请实施例主要以MapReduce分布式计算框架为例进行介绍,MapReduce分布式计算框架用于面向批处理的分布式计算框架,MapReduce分布式计算框架主要划分为四个阶段,分别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,应用于分布式计算框架内的中转服务节点中,所述方法包括:接收执行节点发送的分布式存储数据,所述分布式存储数据为所述执行节点以分布式存储方式存储的数据;将所述分布式存储数据转移至本地磁盘中进行存储,所述本地磁盘为当前设备对应的本地存储区域;响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,所述预设上传策略是基于所述本地磁盘中的平均文件大小确定的策略;响应于所述本地存储数据上传完成,从所述本地磁盘中对所述本地存储数据进行清除。2.根据权利要求1所述的方法,其特征在于,所述将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,包括:响应于所述本地存储数据的平均文件大小达到预设阈值,将所述本地存储数据复制存储至所述云端存储系统;响应于所述本地存储数据的平均文件大小小于所述预设阈值,串行读取所述本地存储数据;将所述本地存储数据中与所述云端存储系统已存储的数据不重合的目标数据上传至所述云端存储系统。3.根据权利要求2所述的方法,其特征在于,所述将所述本地存储数据中与所述云端存储系统已存储的数据不重合的目标数据上传至所述云端存储系统,包括:对所述本地存储数据中与所述云端存储系统已存储的数据不重合的目标数据进行合并,得到合并数据;将所述合并数据上传至云端存储系统。4.根据权利要求1至3任一所述的方法,其特征在于,所述响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,包括:接收主动上传指令,所述主动上传指令用于触发上传所述本地存储数据;基于所述主动上传指令,将所述本地存储数据按照所述预设上传策略上传至所述云端存储系统。5.根据权利要求1至3任一所述的方法,所述响应于所述本地磁盘符合数据上传条件,将所述本地磁盘中的本地存储数据按照预设上传策略上传至云端存储系统,包括:响应于所述本地磁盘内的存储容量超过存储阈值,将所述本地磁盘内的本地存储数据按照所述预设上传策略上传至所述云端存储系统;或者,以预设上传周期将所述本地存储数据按照所述预设上传策略上传至所述云端存储系统。6.根据权利要求1至3任一所述的方法,其特征在于,所述接收执行节点发送的分布式存储数据,包括:接收至少两个执行节点发送的分布式存储数据;
所述将所述分布式存储数据转移至本地磁盘中进行存储,包括:按照分区信息聚合所述至少两个执行节点发送的分布式存储数据,得到分区聚合存储数据;将所述分区聚合...

【专利技术属性】
技术研发人员:段蒙蒋杰邵赛赛马骏杰齐赫章超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1