【技术实现步骤摘要】
数据处理方法、装置、设备和系统
[0001]本申请要求于2021年10月22日提交国家知识产权局、申请号为202111234307.4、申请名称为“分布式系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
[0002]本申请涉及大数据领域,尤其涉及一种数据处理方法、装置、设备和系统。
技术介绍
[0003]大数据(big data)是需要创新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。通常,由多个计算设备基于映射归约(MapReduce)模型对大数据进行分布式处理。由于数据分布在不同的计算设备,执行映射(map)任务的计算设备存储map任务后得到的中间数据。执行归约(reduce)任务的计算设备可能从远端读取中间数据,这个数据交换的过程称为交换(shuffle)。目前,计算设备将中间数据存储到该计算设备内的内存或硬盘。在基于MapReduce模型对大数据进行分布式处理的场景下,导致过多地占用计算设备内存储介质的存储空间。
技术实现思路
[0004]本申请提供了数据处理方法、装置、设备和系统,由此降低占用计算设备内存储介质的存储空间。
[0005]第一方面,提供了一种数据处理方法,所述方法由控制设备执行,控制设备用于控制计算设备执行大数据分布式处理,计算设备配置有多种部署模式的存储介质,多种部署模式的存储介质包括计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个。所述方法 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法由控制设备执行,所述控制设备用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述方法包括:获取大数据业务的业务请求,所述业务请求包括业务数据;从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存储介质中至少两个;向所述计算设备发送控制指示,所述控制指示用于指示所述计算设备对所述业务数据执行大数据分布式处理中映射map任务,并将得到的中间数据存储到所述至少一种部署模式的存储介质。2.根据权利要求1所述的方法,其特征在于,从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,包括:根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述存储策略用于指示依据存储介质特征选取存储介质的方法,所述存储介质特征包括写时延、读时延、总存储容量、可用存储容量、存取速度、中央处理器CPU消耗、能耗比和可靠性中至少一个。3.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:根据所述存储策略指示的所述多种部署模式的存储介质的优先级,从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,所述多种部署模式的存储介质的优先级是依据所述存储介质特征确定的。4.根据权利要求2所述的方法,其特征在于,所述根据存储策略从所述多种部署模式的存储介质中确定所述至少一种部署模式的存储介质,包括:根据用户需求和所述多种部署模式的存储介质的存储介质特征,从所述多种部署模式的存储介质中确定满足所述用户需求的至少一种部署模式的存储介质,所述用户需求用于指示与所述存储介质特征相关的需求。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述存储介质包括内存、硬盘、内存服务器和存储级内存SCM。6.根据权利要求1
‑
5中任一项所述的方法,其特征在于,向所述计算设备发送控制指示之后,所述方法还包括:接收所述计算设备发送的所述至少一种部署模式的存储介质中所述中间数据的存储位置,所述中间数据的存储位置用于执行归约reduce任务时读取所述中间数据。7.一种数据处理方法,其特征在于,所述方法由计算设备执行,所述计算设备配置有多种部署模式的存储介质,所述计算设备连接控制设备,所述控制设备用于控制所述计算设备执行大数据分布式处理,所述方法包括:根据所述控制设备发送的控制指示,对业务数据执行大数据分布式处理中映射map任务,得到中间数据,所述控制指示包括所述业务数据和所述至少一种部署模式的存储介质的标识,所述至少一种部署模式的存储介质是所述控制设备根据存储策略从所述多种部署模式的存储介质中确定得到,所述存储策略用于指示依据存储介质特征选取存储介质的方
法;将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质。8.根据权利要求7所述的方法,其特征在于,将所述中间数据存储到所述至少一种部署模式的存储介质的标识指示的存储介质,包括:若所述至少一种部署模式的存储介质包含一种部署模式的多个存储介质,将所述中间数据的多个分片数据分别存储到所述多个存储介质;或者,若所述至少一种部署模式的存储介质包含两种以上部署模式的存储介质,将所述中间数据的多个分片数据分别存储到所述两种以上部署模式的存储介质。9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:若第一存储介质的可用存储容量小于阈值,将所述第一存储介质的数据存入第二存储介质,所述第一存储介质的存取速度大于所述第二存储介质的存取速度。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:向所述控制设备发送所述多种部署模式的存储介质的可用存储容量。11.一种控制装置,其特征在于,所述控制装置用于控制计算设备执行大数据分布式处理,所述计算设备配置有多种部署模式的存储介质,所述装置包括:通信模块,用于获取大数据业务的业务请求,所述业务请求包括业务数据;决策模块,用于从所述多种部署模式的存储介质中确定至少一种部署模式的存储介质,所述多种部署模式的存储介质包括所述计算设备内的本地存储介质、基于本地存储介质组成的全局存储介质、扩展的全局存储介质和扩展的本地存...
【专利技术属性】
技术研发人员:孙宏伟,李光成,刘华伟,包小明,游俊,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。