数据混洗的流量控制方法、设备及存储介质技术

技术编号:43291540 阅读:17 留言:0更新日期:2024-11-12 16:11
本公开实施例提供一种数据混洗的流量控制方法、设备及存储介质,通过根据分布式计算集群中目标计算节点在数据混洗过程中的获取延迟时间和/或请求堆积数量,判断目标计算节点是否需要开启限流;若确定目标计算节点需要开启限流,则从数据混洗过程中向目标计算节点请求数据的多个应用中确定待限流的目标应用;根据目标应用当前的请求堆积数量,对目标应用进行限流。通过在分布式计算集群中目标计算节点进行数据混洗过程中自动判断是否需要开启限流、以及自动确定待限流的目标应用,可以缓解异常或大规模的数据混洗作业对分布式计算集群的负面影响,减少由于数据混洗获取数据失败而导致的应用运行失败,从而保证分布式计算集群的性能和稳定性。

【技术实现步骤摘要】

本公开实施例涉及计算机与网络通信,尤其涉及一种数据混洗的流量控制方法、设备及存储介质


技术介绍

1、在spark集群等分布式计算集群中,通常需要进行数据混洗(shuffle)过程,数据混洗是把所有计算节点的数据进行重新分区并组合的过程。

2、然而在大规模分布式计算集群内,数据混洗经常会成为性能及稳定性的瓶颈,数据混洗过程中会涉及大频繁的磁盘和网络读写(io)操作,单个计算节点上的管理单元,如spark集群每一目标计算节点的ess(external shuffle service,外部数据混洗服务),需要同时服务该目标节点上所有的数据混洗请求,异常或大规模的数据混洗作业可能会影响分布式计算集群的性能和稳定性。


技术实现思路

1、本公开实施例提供一种数据混洗的流量控制方法、设备及存储介质,以自动对目标计算节点在数据混洗过程中进行小刘,保证分布式计算集群的性能和稳定性。

2、第一方面,本公开实施例提供一种数据混洗的流量控制方法,包括:

3、根据分布式计算集群中目标计算节点在数据本文档来自技高网...

【技术保护点】

1.一种数据混洗的流量控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据分布式计算集群中目标计算节点在数据混洗过程中的获取延迟时间和/或请求堆积数量,判断所述目标计算节点是否需要开启限流,包括:

3.根据权利要求1所述的方法,其特征在于,所述从数据混洗过程中向所述目标计算节点请求数据的多个应用中确定待限流的目标应用,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定向所述目标计算节点请求数据的每个应用各自对应的预设单位时间请求数量阈值,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述目标计...

【技术特征摘要】

1.一种数据混洗的流量控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据分布式计算集群中目标计算节点在数据混洗过程中的获取延迟时间和/或请求堆积数量,判断所述目标计算节点是否需要开启限流,包括:

3.根据权利要求1所述的方法,其特征在于,所述从数据混洗过程中向所述目标计算节点请求数据的多个应用中确定待限流的目标应用,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定向所述目标计算节点请求数据的每个应用各自对应的预设单位时间请求数量阈值,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述目标计算节点在上一个时间周期内最大的单位时间接收请求数量、当前向所述目标计算节点请求数据的应用数量、以及所述任一应用的优先级,确定所述任一应用对应的预设单位时间请求数量阈值,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述目标应用当前的请求堆积数量,对所述目标应用进行限流,包括:

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:程航宋军魏中佳辛朝晖师锐
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1