数据处理方法、装置、设备和系统制造方法及图纸

技术编号:37481554 阅读:9 留言:0更新日期:2023-05-07 09:21
公开了数据处理方法、装置、设备和系统,涉及大数据领域。控制设备用于控制计算设备执行大数据分布式处理。计算设备配置有多种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。所述方法包括控制设备获取到大数据业务的业务请求,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,向计算设备发送控制指示,指示计算设备对业务请求包括的业务数据执行大数据分布式处理中映射(map)任务,并将得到的中间数据存储到至少一种部署模式的存储介质。从而,减少用于存储中间数据而占用计算设备内存储介质的存储空间。质的存储空间。质的存储空间。

【技术实现步骤摘要】
数据处理方法、装置、设备和系统
[0001]本申请要求于2021年10月22日提交国家知识产权局、申请号为202111234307.4、申请名称为“分布式系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及大数据领域,尤其涉及一种数据处理方法、装置、设备和系统。

技术介绍

[0003]大数据(big data)是需要创新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。通常,由多个计算设备基于映射归约(MapReduce)模型对大数据进行分布式处理。由于数据分布在不同的计算设备,执行映射(map)任务的计算设备存储map任务后得到的中间数据。执行归约(reduce)任务的计算设备可能从远端读取中间数据,这个数据交换的过程称为交换(shuffle)。目前,计算设备将中间数据存储到该计算设备内的内存或硬盘。在基于MapReduce模型对大数据进行分布式处理的场景下,导致过多地占用计算设备内存储介质的存储空间。

技术实现思路

[0004]本申请提供了数据处理方法、装置、设备和系统,由此降低占用计算设备内存储介质的存储空间。
[0005]第一方面,提供了一种数据处理方法,所述方法由控制设备执行,控制设备用于控制计算设备执行大数据分布式处理,计算设备配置有多种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。所述方法包括控制设备获取到大数据业务的业务请求,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,向计算设备发送控制指示,指示计算设备对业务请求包括的业务数据执行大数据分布式处理中map任务,并将得到的中间数据存储到至少一种部署模式的存储介质。
[0006]如此,控制设备可以从多种部署模式的存储介质中选择存储中间数据的存储介质,以减少用于存储中间数据而占用计算设备内存储介质(如:内存或磁盘)的存储空间,为计算设备执行map任务或reduce任务释放出更多的可用存储空间,进而提升了计算设备处理map任务或reduce任务的处理效率。
[0007]在一种可能的实现方式中,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:控制设备根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质。存储策略用于指示依据存储介质特征选取存储介质的方法。存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器(central processing unit,CPU)消耗、能耗比和可靠性中至少一个。
[0008]示例一,根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存
储介质,包括:控制设备根据存储策略指示的多种部署模式的存储介质的优先级,从多种部署模式的存储介质中确定至少一种部署模式的存储介质,多种部署模式的存储介质的优先级是依据存储介质特征确定的。
[0009]示例二,根据存储策略从多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:控制设备根据用户需求和多种部署模式的存储介质的存储介质特征,从多种部署模式的存储介质中确定满足用户需求的至少一种部署模式的存储介质,用户需求用于指示与存储介质特征相关的需求。如此,控制设备从多种部署模式的存储介质中选择存储中间数据的存储介质时,基于用户对存取速度或可靠性等特征的用户需求,动态地选取满足用户需求的至少一种部署模式的存储介质,相对于采用一种部署模式的存储介质存储不同场景的中间数据,确保数据处理的性能(如:数据处理速率)和可靠性的场景需求。
[0010]其中,存储介质包括内存、硬盘、内存服务器和存储级内存(storage

class

memory,SCM)。如此,在大数据分布式处理系统中引入内存服务器和SCM,扩展了存储中间数据的存储介质,使得存储中间数据的存储介质具有更多的可能性,减少占用计算设备内存储介质的存储空间存储中间数据,提升中间数据的可靠性。
[0011]需要说明的是,存储策略以大数据业务粒度配置或大数据业务中任务粒度配置或系统全局粒度配置。
[0012]在另一种可能的实现方式中,向计算设备发送控制指示之后,方法还包括:控制设备接收计算设备发送的至少一种部署模式的存储介质中中间数据的存储位置,中间数据的存储位置用于执行reduce任务时读取中间数据。进而,控制设备接收计算设备发送的中间数据请求,中间数据请求用于中间数据所在的存储位置。控制设备向计算设备发送指示中间数据的存储位置的元数据,元数据指示了中间数据所在的存储位置。计算设备根据元数据获取中间数据。
[0013]第二方面,提供了一种数据处理方法,方法由计算设备执行,计算设备配置有多种部署模式的存储介质,计算设备连接控制设备,控制设备用于控制计算设备执行大数据分布式处理。所述方法包括计算设备根据控制设备发送的控制指示,对业务数据执行大数据分布式处理中map任务,得到中间数据,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质。控制指示包括业务数据和至少一种部署模式的存储介质的标识,至少一种部署模式的存储介质是控制设备根据存储策略从多种部署模式的存储介质中确定得到,存储策略用于指示依据存储介质特征选取存储介质的方法。
[0014]如此,在系统中增加多种部署模式的存储介质,使得控制设备可以从多种部署模式的存储介质中选择存储中间数据的存储介质,计算设备根据控制设备的指示将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质,以减少用于存储中间数据而占用计算设备内存储介质(如:内存或磁盘)的存储空间,为计算设备执行map任务或reduce任务释放出更多的可用存储空间,提升了计算设备处理map任务或reduce任务的处理效率。
[0015]在一种可能的实现方式中,将中间数据存储到至少一种部署模式的存储介质的标识指示的存储介质,包括:若至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将中间数据的多个分片数据分别存储到多个存储介质;或者,若至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将中间数据的多个分片数据分别存储到两种以上部署模式的存储介质。
[0016]在另一种可能的实现方式中,多种部署模式的存储介质包含第一存储介质和第二存储介质,方法还包括:若第一存储介质的可用存储容量小于阈值,将第一存储介质的数据存入第二存储介质,第一存储介质的存取速度大于第二存储介质的存取速度。从而,将可用存储容量小于阈值的存储介质中的中间数据移出后,可以增加存储介质的可用存储容量,以便提升中间数据的处理效率,且确保中间数据能够正常写入到存储介质中。
[0017]在另一种可能的实现方式中,方法还包括:计算设备向控制设备发送多种部署模式的存储介质的可用存储容量,以便于控制设备根据存储介质的可用存储容量从多种部署模式的存储介质中确定至少一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法由控制设备执行,所述控制设备用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述方法包括:获取大数据业务的业务请求,所述业务请求包括业务数据;从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个;向所述计算设备发送控制指示,所述控制指示用于指示所述计算设备对所述业务数据执行大数据分布式处理中映射map任务,并将得到的中间数据存储到所述至少一种部署模式的存储介质。2.根据权利要求1所述的方法,其特征在于,从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述存储策略用于指示依据存储介质特征选取存储介质的方法,所述存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器CPU消耗、能耗比和可靠性中至少一个。3.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:根据所述存储策略指示的所述多种部署模式的存储介质的优先级,从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述多种部署模式的存储介质的优先级是依据所述存储介质特征确定的。4.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:根据用户需求和所述多种部署模式的存储介质的存储介质特征,从所述多种部署模式的存储介质中确定满足所述用户需求的至少一种部署模式的存储介质,所述用户需求用于指示与所述存储介质特征相关的需求。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述存储介质包括内存、硬盘、内存服务器和存储级内存SCM。6.根据权利要求1

5中任一项所述的方法,其特征在于,向所述计算设备发送控制指示之后,所述方法还包括:接收所述计算设备发送的所述至少一种部署模式的存储介质中所述中间数据的存储位置,所述中间数据的存储位置用于执行归约reduce任务时读取所述中间数据。7.一种数据处理方法,其特征在于,所述方法由计算设备执行,所述计算设备配置有多种部署模式的存储介质,所述计算设备连接控制设备,所述控制设备用于控制所述计算设备执行大数据分布式处理,所述方法包括:根据所述控制设备发送的控制指示,对业务数据执行大数据分布式处理中映射map任务,得到中间数据,所述控制指示包括所述业务数据和所述至少一种部署模式的存储介质的标识,所述至少一种部署模式的存储介质是所述控制设备根据存储策略从所述多种部署模式的存储介质中确定得到,所述存储策略用于指示依据存储介质特征选取存储介质的方
法;将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质。8.根据权利要求7所述的方法,其特征在于,将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质,包括:若所述至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将所述中间数据的多个分片数据分别存储到所述多个存储介质;或者,若所述至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将所述中间数据的多个分片数据分别存储到所述两种以上部署模式的存储介质。9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:若第一存储介质的可用存储容量小于阈值,将所述第一存储介质的数据存入第二存储介质,所述第一存储介质的存取速度大于所述第二存储介质的存取速度。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:向所述控制设备发送所述多种部署模式的存储介质的可用存储容量。11.一种控制装置,其特征在于,所述控制装置用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述装置包括:通信模块,用于获取大数据业务的业务请求,所述业务请求包括业务数据;决策模块,用于从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存...

【专利技术属性】
技术研发人员:孙宏伟李光成刘华伟包小明游俊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1