波动数据流场景下的算子智能并行化流处理方法及装置制造方法及图纸

技术编号:37870682 阅读:5 留言:0更新日期:2023-06-15 21:00
本发明专利技术公开了波动数据流场景下的算子智能并行化流处理方法及装置,该方法包括:获取物联网资产管理系统中的流量算子资源和拓扑信息;将算子资源数据输入至并行度瓶颈识别模型中,判断当算子资源数据满足预设条件时输出拓扑信息的瓶颈级别;将瓶颈级别和算子资源数据输入至参数计划生成模型中得到拓扑信息的参数计划,将参数计划输入至参数迁移转换模型得到迁移计划,并将迁移计划存入路由表中;响应接收到的分配指令,调用路由表中的迁移计划以调度完成流量算子资源的再分配。本发明专利技术可以随着环境的变化实时监控并收集信息,完成资源分配的智能优化,从而保证DSPS的流畅运行。从而保证DSPS的流畅运行。从而保证DSPS的流畅运行。

【技术实现步骤摘要】
波动数据流场景下的算子智能并行化流处理方法及装置


[0001]本专利技术涉及算子智能并行化流处理
,特别是涉及波动数据流场景下的算子智能并行化流处理方法及装置。

技术介绍

[0002]随着在线应用服务的不断发展,分布式流计算平台(DSPS)使大数据应用程序能够处理连续的数据流并获得实时反馈。大量流计算相关研究从在线资源管理层面为波动数据流提供优化,却忽略了流应用层面的算子并行度优化。例如,算子并行度一旦设置就无法进行动态调整。
[0003]现有技术提出了一种基于流应用程序的管道数据处理模型。当上游邻接操作的输入数据与输出数据的比率已知时,可以提前获得下游邻接操作的输入数据。通过学习拟合线性函数,取监测期间概率分布的均值,有效降低数据集和函数值的误差,提高训练的效率和准确率。当拟合函数变得稳定时,可以获得非监控期,有效地减少训练开销和释放资源。以及提出了一种基于拓扑DAG(有向无环图)的调度算法。通过优化异构集群的资源使用来提高效率,从而提高吞吐量并优化资源利用率。该算法分为两个阶段:在第一阶段,执行者在DAG的帮助下进行逻辑分组,以尽量减少组间通信。在第二阶段,这些组从高性能节点开始分配到物理节点。
[0004]现有技术中,耗时的训练过程一定程度上限制了参数配置优化的实时性,状态和数据的不一致也会造成相当大的开销。此外随着环境变化,无法做到实时收集信息,从而缺少对拟合线性函数学习的持续监控和调优。通过优化异构集群的资源使用来提高效率,而事实上,算子并行度一旦设置就无法进行动态调整。因此合理的资源再分配优化也同样重要。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术提出一种波动数据流场景下的算子智能并行化流处理方法。在研究DSPS结构特征、工作机制以及参数配置的基础上,结合其中有代表性的部分进行适用性分析。随着环境的变化实时监控并收集信息,完成资源分配的智能优化,从而保证DSPS的流畅运行。
[0007]本专利技术的另一个目的在于提出一种波动数据流场景下的算子智能并行化流处理装置。
[0008]为达上述目的,本专利技术一方面提出一种波动数据流场景下的算子智能并行化流处理方法,包括:
[0009]获取物联网资产管理系统中的流量算子资源和拓扑信息;
[0010]将所述算子资源数据输入至并行度瓶颈识别模型中,判断当所述算子资源数据满足预设条件时输出所述拓扑信息的瓶颈级别;
[0011]将所述瓶颈级别和所述算子资源数据输入至参数计划生成模型中得到所述拓扑信息的参数计划,将所述参数计划输入至参数迁移转换模型得到迁移计划,并将所述迁移计划存入路由表中;
[0012]响应接收到的分配指令,调用所述路由表中的迁移计划以调度完成所述流量算子资源的再分配。
[0013]另外,根据本专利技术上述实施例的波动数据流场景下的算子智能并行化流处理方法还可以具有以下附加的技术特征:
[0014]进一步地,在本专利技术的一个实施例中,所述将算子资源数据输入至并行度瓶颈识别模型中,判断当所述算子资源数据满足预设条件时输出所述拓扑信息的瓶颈级别,包括:
[0015]将算子资源数据进行并行度瓶颈识别算法的计算,并基于不同网络环境中节点间的通信瓶颈因素依次遍历每个节点的执行任务,分别计算所有节点上执行任务的计算时间和通信时间总和得到瓶颈时间;
[0016]依次遍历拓扑信息中每个执行任务中的执行延迟,基于所述瓶颈时间和所述执行延迟得到瓶颈优先级,按照所述瓶颈优先级从高到低排序并基于排序结果得到拓扑信息的瓶颈级别序列。
[0017]进一步地,在本专利技术的一个实施例中,所述方法,还包括构建线性回归的目标函数,通过最小二乘法求解所述目标函数的最优解,根据所述最优解得到所述流量算子资源是否需要重新分配的判断结果。
[0018]进一步地,在本专利技术的一个实施例中,所述方法,还包括:
[0019]建立一阶二项式线性回归公式,得到精度区间内函数值与实际值之间的均值误差;通过一阶二项式线性公式的线性回归函数得到偏导数并求最优解;当训练集与拟合的线性标注函数的Euclid距离之和最小时,得到阈值识别函数;
[0020]实时比较阈值识别函数和数据集时间戳的平均延迟并得到均值误差,当均值误差为正时,将阈值识别函数的值作为有效瓶颈值,将瓶颈时间间隔内的最大有效瓶颈值作为参考瓶颈时间;
[0021]当参考瓶颈时间在同一区间内出现多次,在同一个数量级时,将参考瓶颈时间存到瓶颈级别表中,并从高到低进行排序。
[0022]进一步地,在本专利技术的一个实施例中,在调用所述路由表中的迁移计划以调度完成所述流量算子资源的再分配之后,所述方法,还包括:
[0023]获取需要进行任务分配的拓扑,并按照瓶颈级别序列存入全量拓扑集合中;
[0024]获取当前集群可用的资源,以集合的形式返回,赋值给可用算子,将拓扑的执行器信息转化为集合存入全量执行器集合中;
[0025]获得当前拓扑已经获得的资源,返回集合存入存活任务队列;对存活任务队列中的算子信息进行判断,选出其中被重新分配的算子存入变量可用任务队列;
[0026]计算当前拓扑中被释放的算子数目,如果大于当前已分配的算子数目,则将其释放;依次按照全量拓扑集合的顺序根据调度前计算的记录,将全量执行器集合进行分配。
[0027]为达上述目的,本专利技术另一方面提出一种波动数据流场景下的算子智能并行化流处理装置,包括:
[0028]信息获取模块,用于获取物联网资产管理系统中的流量算子资源和拓扑信息;
[0029]瓶颈级别输出模块,用于将所述算子资源数据输入至并行度瓶颈识别模型中,判断当所述算子资源数据满足预设条件时输出所述拓扑信息的瓶颈级别;
[0030]参数迁移模块,用于将所述瓶颈级别和所述算子资源数据输入至参数计划生成模型中得到所述拓扑信息的参数计划,将所述参数计划输入至参数迁移转换模型得到迁移计划,并将所述迁移计划存入路由表中;
[0031]参数分配模块,用于响应接收到的分配指令,调用所述路由表中的迁移计划以调度完成所述流量算子资源的再分配。
[0032]本专利技术实施例的波动数据流场景下的算子智能并行化流处理方法和装置,解决了运行时算子并行度不透明的问题。同时,还设计了兼顾通用性和实时性的参数迁移调度。实验结果表明与现有通用调度策略相比,其具有更低的延迟和更高的吞吐量。
[0033]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0034]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0035]图1是根据本专利技术实施例的波动数据流场景下的算子智能并行化流处理方法的流程图;
[0036]图2是根据本专利技术实施例的波动数据流场景下的算子智能并行化流处理方法的框本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种波动数据流场景下的算子智能并行化流处理方法,其特征在于,包括以下步骤:获取物联网资产管理系统中的流量算子资源和拓扑信息;将所述算子资源数据输入至并行度瓶颈识别模型中,判断当所述算子资源数据满足预设条件时输出所述拓扑信息的瓶颈级别;将所述瓶颈级别和所述算子资源数据输入至参数计划生成模型中得到所述拓扑信息的参数计划,将所述参数计划输入至参数迁移转换模型得到迁移计划,并将所述迁移计划存入路由表中;响应接收到的分配指令,调用所述路由表中的迁移计划以调度完成所述流量算子资源的再分配。2.根据权利要求1所述的方法,其特征在于,所述将算子资源数据输入至并行度瓶颈识别模型中,判断当所述算子资源数据满足预设条件时输出所述拓扑信息的瓶颈级别,包括:将算子资源数据进行并行度瓶颈识别算法的计算,并基于不同网络环境中节点间的通信瓶颈因素依次遍历每个节点的执行任务,分别计算所有节点上执行任务的计算时间和通信时间总和得到瓶颈时间;依次遍历拓扑信息中每个执行任务中的执行延迟,基于所述瓶颈时间和所述执行延迟得到瓶颈优先级,按照所述瓶颈优先级从高到低排序并基于排序结果得到拓扑信息的瓶颈级别序列。3.根据权利要求2所述的方法,其特征在于,所述方法,还包括构建线性回归的目标函数,通过最小二乘法求解所述目标函数的最优解,根据所述最优解得到所述流量算子资源是否需要重新分配的判断结果。4.根据权利要求3所述的方法,其特征在于,所述方法,还包括:建立一阶二项式线性回归公式,得到精度区间内函数值与实际值之间的均值误差;通过一阶二项式线性公式的线性回归函数得到偏导数并求最优解;当训练集与拟合的线性标注函数的Euclid距离之和最小时,得到阈值识别函数;实时比较阈值识别函数和数据集时间戳的平均延迟并得到均值误差,当均值误差为正时,将阈值识别函数的值作为有效瓶颈值,将瓶颈时间间隔内的最大有效瓶颈值作为参考瓶颈时间;当参考瓶颈时间在同一区间内出现多次,在同一个数量级时,将参考瓶颈时间存到瓶颈级别表中,并从高到低进行排序。5.根据权利要求1所述的方法,其特征在于,在调用所述路由表中的迁移计划以调度完成所述流量算子资源的再分配之后,所述方法,还包括:获取需要进行任务分配的拓扑,并按照瓶颈级别序列存入全量拓扑集合中;获取当前集群可用的资源,以集合的形式返回,赋值给可用算子,将拓扑的执行器信息转化为集合存入全量执行器集合中;获得当前拓扑已经获得的资源,返回集合存入存活任务队列;对存活任务队列中的算子信息进行判断,选出其中被重新分配的算子存入变量可用任务队列;计算当前拓扑中被释放的算子数目,如果大于当前已分配的算子数目,则将其释放;依次按照全量拓扑集合的顺序根据调度前计算的记录,将全量执行器集合进行分配。6....

【专利技术属性】
技术研发人员:李维胡威杨家海李城龙李祉岐尹琴程杰夏昂党芳芳闫丽景
申请(专利权)人:国家电网有限公司信息通信分公司国网河南省电力公司信息通信公司国网信息通信产业集团有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1