【技术实现步骤摘要】
本专利技术属于工业废气治理控制领域,尤其涉及一种工业废气治理强化学习多智能体协同优化方法及系统。
技术介绍
1、当前,随着工业化进程的加速推进,工业废气治理成为环境保护工作的重要一环。强化学习作为一种有效的机器学习范式,已经在诸如机器人协同、电力系统调度、交通管控等领域取得了显著成果;然而,将多智能体强化学习技术引入工业废气治理领域还相对较少,且尚不成熟。现有技术在运用强化学习解决单个处理设备或单一污染物控制问题时,无法充分解决多智能体间的协同优化问题,如不同处理单元间的联动控制、资源分配、策略协调等,这在很大程度上限制了废气治理体系整体性能的提升。
2、如公开号为cn117763816a的专利公开了基于数字孪生的实时虚拟仿真系统和方法,其通过传感器组实时采集工业废气浓度值、环境温度值、环境湿度值和风速值作为输入,并在后端引入数据处理和分析算法来进行这些数据的时序协同分析,同时构建数字孪生模型,以此来模拟工业废气的扩散过程,并预测未来的废气浓度分布。
3、以上现有技术均存在以下问题:1)现有的工业废气治理方法往往
...【技术保护点】
1.一种工业废气治理强化学习多智能体协同优化方法,其特征在于,包括:
2.如权利要求1所述的一种工业废气治理强化学习多智能体协同优化方法,其特征在于,所述K个异构智能体模型都是基于原始的SAC模型构建,包括第一策略网络k,第一评估网络k,第一目标策略网络k,第一目标评估网络k,第二评估网络k,第二目标评估网络k;且第k个异构智能体与第k!个异构智能体之间通过一个协同策略网络和协同评估网络进行连接;其中k!表示不包含第k个异构智能体集合中的第k!个异构智能体;所述第一策略网络k用于生成对应设备功能单元独立运行的控制策略,所述第一评估网络k用于根据第一策略网络
...【技术特征摘要】
1.一种工业废气治理强化学习多智能体协同优化方法,其特征在于,包括:
2.如权利要求1所述的一种工业废气治理强化学习多智能体协同优化方法,其特征在于,所述k个异构智能体模型都是基于原始的sac模型构建,包括第一策略网络k,第一评估网络k,第一目标策略网络k,第一目标评估网络k,第二评估网络k,第二目标评估网络k;且第k个异构智能体与第k!个异构智能体之间通过一个协同策略网络和协同评估网络进行连接;其中k!表示不包含第k个异构智能体集合中的第k!个异构智能体;所述第一策略网络k用于生成对应设备功能单元独立运行的控制策略,所述第一评估网络k用于根据第一策略网络k生成的所有控制策略的动作概率,计算得到当前所有控制策略对应动作概率的最优评估值;所述第一目标评估网络k,第二评估网络k,第二目标评估网络k与原始sac模型中对应的网络功能相同;所述协同策略网络,用于根据第k个智能体与第k!个智能体输出的执行动作策略与对应的评估价值计算得到第k个功能单元与第k!个功能单元的联合执行动作策略,并将计算的联合执行动作策略反馈给联合执行动作的功能单元;所述协同策略网络包括层单头协同注意力层;所述协同评估网络,用于对协同策略网络获取的所有联合执行动作策略进行评估获取最优联合执行动作。
3.如权利要求2所述的一种工业废气治理强化学习多智能体协同优化方法,其特征在于,所述步骤s3中最优化智能体模型,采用一种最优化策略,用于计算工业废气治理系统中所有功能...
【专利技术属性】
技术研发人员:陈雷,陆雪梅,王金龙,王云枫,王明秀,
申请(专利权)人:南京博约环境科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。