基于强化学习与负反馈控制的多类型计算协同系统及方法技术方案

技术编号：40903285 阅读：3 留言：0更新日期：2024-04-18 14:34

本发明专利技术公开了一种基于强化学习与负反馈控制的多类型计算协同系统及方法，包括：接口模块，用于获取任务信息；分级协同模块，用于根据初始资源情境得到任务处理策略，根据情境分析报告得到PID超参数及更新任务处理策略；多类型计算模块，用于根据任务信息和传感器数据生成任务数据，根据任务处理策略和更新任务处理策略封装任务并执行任务处理代码，处理任务数据，生成初始资源情境和情境分析报告。本发明专利技术使用负反馈分级配置调整实时调整多类型任务的处理策略，可控制数据的量化采样参数、任务处理的资源分配参数和计算参数，适应资源情境和任务情境的动态变化，在保障任务处理时延和任务处理精度的情况下，提高了系统中资源利用率和任务并发量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多类型任务协同计算，具体涉及一种基于强化学习与负反馈控制的多类型计算协同系统及方法。

技术介绍

1、随着各类传感器的普及与各类用于传感数据分析的神经网络的出现，人们可以基于监控视频流、会议音频流等数据中提取出很多有价值的信息，如：电网刀闸的开合情况、课堂抬头率、会议室声源人数等。同时随着边缘计算的普及，人们通过协同数据处理系统中边缘集群高带宽低算力、云服务器低带宽高算力的特点，提高了多类型任务处理的质量。已经有不少研究工作研究了利用神经网络完成多类型分析任务的计算系统，但这些计算系统依然有不少问题。

2、目前，主流的多类型计算协同系统有：

3、1)基于pid负反馈控制的协同系统；这类系统通过pid算法，计算任务处理的质量指标与用户期望值的偏差，根据偏差调整任务的处理参数。这类系统的协同依据单一、只能调整单一的处理参数，而且现实场景中数据可能有较大的变化，导致任务处理质量有较大波动，pid算法固定的超参数无法适应这些波动，导致任务处理质量达不到期望值，自适应性较差；

4、2)基于强化学习的协同系统；这类系统以系统负载情况为输入，以单一类型任务的处理参数为输出，直接训练强化学习模型来调整各类任务的处理参数。但由于任务的处理参数维度较大，难以训练出收敛的强化学习模型，同时这种模型在其他类型任务处理的场景下难以适用；

5、因此基于上述考虑，有必要提出一种基于强化学习与负反馈控制的多类型计算协同系统及方法，使多类型的数据计算都可以在同一平台上并发执行，充分利用计算机系统的资源，

技术实现思路

1、针对于上述现有技术的不足，本专利技术的目的在于提供一种基于强化学习与负反馈控制的多类型计算协同系统及方法，以解决现有的多类型计算协同系统难收敛、协同参数单一、自适应性差的问题。

2、为达到上述目的，本专利技术采用的技术方案如下：

3、本专利技术的一种基于强化学习与负反馈控制的多类型计算协同系统，包括：接口模块、分级协同模块、多类型计算模块；

4、接口模块，用于获取任务信息；

5、分级协同模块，用于根据多类型计算模块发送的初始资源情境得到任务处理策略；根据多类型计算模块发送的情境分析报告，得到pid超参数及更新任务处理策略；

6、多类型计算模块，用于根据任务信息和传感器数据生成任务数据；根据分级协同模块发送的任务处理策略和更新任务处理策略封装任务并执行任务处理代码，处理任务数据；任务处理过程中，检测资源情境和任务情境，生成初始资源情境和情境分析报告。

7、进一步地，所述接口模块，用于获取任务信息，任务信息包括数据源、任务处理流程dag＝(s,e)和任务处理流程中各阶段的任务处理代码、任务处理时延约束d；其中任务阶段集合s表示任务处理阶段的集合，每个任务处理阶段s作为dag中一个节点，任务阶段次序集合e表示各任务处理阶段间的先后关系e＝(si,sj)的集合，每个先后关系e＝(si,sj)表示先执行任务处理阶段si的任务处理代码再执行任务处理阶段sj的阶段任务。

8、进一步地，所述分级协同模块包括：pid负反馈偏差计算器、知识库、分级配置调整器、强化学习调控器；

9、所述pid负反馈偏差计算器，用于接收任务处理时延约束d和情境分析报告中的任务实际处理时延y(t)，根据pid公式计算加权偏差u(t)，具体为：

10、u(t)＝prop+intg+diff

11、其中，prop＝kp·e(t)，intg＝ki·∫e(τ)dτ，diff＝kd·de(t)/dt，e(t)＝y(t)-d，(kp,ki,kd)为pid超参数；

12、所述知识库，用于保存多类型计算节点的任务处理策略plant＝{(ps,params)}和处理任务后的任务实际处理时延y(t)，s∈s，任务处理策略包含执行任务阶段s时使用的代码执行器ps和执行参数params，使用不同的计算进程和计算参数执行任务处理阶段s会产生不同的任务实际处理时延y(t)，任务实际处理时延y(t)从情境分析报告中获取；

13、所述分级配置调整器，利用初始资源情境和任务信息，建立优化模型并求解得到任务处理策略plant；基于知识库，将加权偏差u(t)关联到任务处理策略plant需要更新的参数维度，得到更新任务处理策略plant+1；

14、所述强化学习调控器，基于情境分析报告，利用强化学习神经网络，得到pid超参数(kp,ki,kd)。

15、进一步地，所述多类型计算模块包括：传感器、情境监测器、任务生成器、进程通信器、任务存储器、代码执行器、数据库；

16、传感器，用于采集传感器数据，包括但不限于摄像头采集的视频数据、麦克风采集的音频数据、天线采集雷达射频数据；

17、情境监测器，用于检测资源情境，得到初始资源情境和资源情境历史序列；同时分析任务处理的结果，检测任务情境，得到任务情境历史序列；合并资源情境历史序列和任务情境历史序列，生成情境分析报告；

18、任务生成器，利用任务信息和传感器数据生成任务数据，根据分级协同模块发送的任务处理策略plant和更新任务处理策略plant+1，将任务信息和任务数据封装成任务task＝(dag,s，data，plant)；一个任务包含任务处理阶段s，任务处理阶段s的任务数据data、任务处理流程dag和任务处理策略plant；

19、进程通信器，用于在不同代码执行器ps和任务存储器qs之间分发任务；

20、任务存储器qs，用于接收任务生成器封装的任务和进程通信器分发的任务，并根据任务处理策略选择代码执行器；每个任务处理阶段s均有对应的任务存储器；

21、代码执行器ps，用于从任务处理阶段s的任务存储器qs中获取任务，根据任务处理阶段数据执行任务处理阶段的代码，处理任务数据data得到结果ress，并将计算结果封装成后续任务处理阶段n的任务task＝(dag，n,ress,plant)，通过进程通信器发送到对应的任务存储器；每个任务处理阶段均有对应的计算进程；

22、数据库，用于存储任务处理中任务处理阶段s的结果ress。

23、本专利技术公开的一种基于强化学习与负反馈控制的多类型计算协同方法，基于上述系统，步骤如下：

24、1)获取任务信息，任务信息包括数据源、任务处理流程dag、任务处理流程中各阶段的任务处理代码、任务处理时延约束d；

25、2)根据任务存储情况、代码执行情况和进程间通信情况，得到初始资源情境rtinit；

26、3)根据初始资源情境和任务信息，建立优化模型m，得到任务处理策略plant＝{(ps,params)},s∈s，任务处理策略包含执行各个任务处理阶段s的任务处理代码时使用的代码执行器ps和执行参数params；

27本文档来自技高网...

【技术保护点】

1.一种基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，包括：接口模块、分级协同模块、多类型计算模块；

2.根据权利要求1所述的基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，所述接口模块，用于获取任务信息，任务信息包括数据源、任务处理流程DAG＝(S,E)和任务处理流程中各阶段的任务处理代码、任务处理时延约束D；其中任务阶段集合S表示任务处理阶段的集合，每个任务处理阶段s作为DAG中一个节点，任务阶段次序集合E表示各任务处理阶段间的先后关系e＝(si,sj)的集合，每个先后关系e＝(si,sj)表示先执行任务处理阶段si的任务处理代码再执行任务处理阶段sj的阶段任务。

3.根据权利要求1所述的基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，所述分级协同模块包括：PID负反馈偏差计算器、知识库、分级配置调整器、强化学习调控器；

4.根据权利要求1所述的基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，所述多类型计算模块包括：传感器、情境监测器、任务生成器、进程通信器、任务存储器、代码执行器、数据库；

...

【技术特征摘要】

1.一种基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，包括：接口模块、分级协同模块、多类型计算模块；

2.根据权利要求1所述的基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，所述接口模块，用于获取任务信息，任务信息包括数据源、任务处理流程dag＝(s,e)和任务处理流程中各阶段的任务处理代码、任务处理时延约束d；其中任务阶段集合s表示任务处理阶段的集合，每个任务处理阶段s作为dag中一个节点，任务阶段次序集合e表示各任务处理阶段间的先后关系e＝(si,sj)的集合，每个先后关系e＝(si,sj)表示先执行任务处理阶段si的任务处理代码再执行任务处理阶段sj的阶段任务。

3.根据权利要求1所述的基于强化学习与负反馈控制的多类型计算协同系统，其特征在于，所述分级协同模块包括：pid负反馈偏差计算器、知识库、分级配置调整器、强化学习调控器；

4.根据权利要求1所述的基于强化学习与负反馈控制的...

【专利技术属性】
技术研发人员：谢磊，彭清桦，周文晖，王楚豫，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人