【技术实现步骤摘要】
一种数据处理方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法和装置。
技术介绍
[0002]在大数据开发
,实时计算使用场景愈发广泛,诸如实时商品推荐、实时决策、实时匹配等现实场景。实时计算引擎如Strom、SparkStreaming、Flink相继出现,其中Flink的优势较为突出。Flink是分布式的,任务使用的计算资源量由各个算子以及共享链策略决定。
[0003]如何使用最少的资源完成实时计算任务,这是需要探究的问题。目前实时计算开发人员通常都是事先预估数据量的量级后,结合代码逻辑以及之前积累的项目经验,来制定各个算子的并行度以及共享链策略,启动任务后策略生效,任务运行期间策略不再改变。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:制定合理的算子并行度和共享链策略较难,需要开发人员多次调整;应对数据高峰段和低谷段效果有待提高;资源持续占用,不会自动释放多余资源。
技术实现思路
[0005]有鉴于此,本专利技术实施例提 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:接入实时数据流,检测逻辑处理算子所依赖的每个机器的资源使用率,得到资源总使用率;比对资源总使用率和预设使用率范围,使用与比对结果对应的处理策略,调整逻辑处理算子所依赖的每个机器的并行度;利用调整并行度后的逻辑处理算子处理所述实时数据流,将处理结果传输给下一个逻辑处理算子进行再处理,重复上述并行度调整和处理数据过程,直至无逻辑处理算子为止,得到总处理结果。2.根据权利要求1所述的方法,其特征在于,所述得到资源总使用率,包括:确定资源使用率最高的第一预设数量个机器并取平均,得到资源总使用率;其中,各机器的处理逻辑相同。3.根据权利要求1或2所述的方法,其特征在于,资源包括CPU和内存,所述预设使用率范围大于等于第一阈值且小于第二阈值;所述比对资源总使用率和预设使用率范围,使用与比对结果对应的处理策略,调整逻辑处理算子所依赖的每个机器的并行度,包括:在CPU使用率小于第一阈值的情况下,若内存使用率小于第二阈值,则对算子降低第二预设数量个并行度,否则减小算子的槽配置比;其中,配置比为CPU配置量/内存配置量;在CPU使用率位于预设使用率范围内的情况下,若内存使用率小于第一阈值,则对算子降低第二预设数量个并行度,若大于或等于第二阈值,则对算子增加第三预设数量个并行度,否则不做处理;在CPU使用率大于或等于第二阈值的情况下,若内存使用率大于或等于第一阈值,则对算子增加第三预设数量个并行度,否则增大算子的槽配置比。4.根据权利要求3所述的方法,其特征在于,所述使用与比对结果对应的处理策略,调整逻辑处理算子所依赖的每个机器的并行度,包括:若处理策略为减小算子的槽配置比,则对算子下所有机器的槽配置比进行减小处理;或若处理策略为增大算子的槽配置比,则对算子下所有机器的槽配置比进行增大处理;或若处理策略为降低第二预设数量个并行度、或增加第三预设数量个并行度,则将处理策略、算子下当前的机器数量和并行度数量,一同反馈给任务资源管理器,使得任务资源管理器重新调整算子下的机器数量和每个机器下的并行度数量。5.根据权利要求3所述的方法,其特...
【专利技术属性】
技术研发人员:李怡,王熙,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。