System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及工业节能与智能控制,特别是涉及基于强化学习和物联网平台的转轮除湿控制方法、系统、介质、终端及程序产品。
技术介绍
1、在工业生产中,如精密制造、锂电池生产和制药等领域,空气湿度的精准控制对产品质量和生产工艺的稳定性具有至关重要的作用。转轮除湿系统作为一种高效的空气除湿设备,通过其吸湿和再生功能,能够在各种复杂环境下实现对湿度的精准控制。
2、目前,转轮除湿系统的控制主要依赖于传统的pid控制或经验规则控制。这些方法通过实时反馈调节转轮转速、再生温度和风量等关键参数,在环境变化不大的情况下能够满足湿度调控的基本需求。此外,部分系统引入了基于定值控制的简单逻辑,将固定参数应用于不同工况,以简化控制流程和设备运行管理。
3、尽管现有技术在一定程度上提高了除湿效率,但仍缺乏基于大数据和智能优化的动态调控能力。特别是在湿度需求变化显著或多工况交替的情况下,现有技术的响应速度和适应性不足,无法实现湿度控制精度和能耗优化的双重目标。
4、因此,有必要提供一种基于强化学习和物联网平台的转轮除湿控制方法、系统、介质、终端及程序产品,以解决现有技术中存在的上述问题。
技术实现思路
1、鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于强化学习和物联网平台的转轮除湿控制方法、系统、介质、终端及程序产品,用于解决现有技术在复杂工况下无法实现湿度控制精度和能耗优化的技术问题。
2、为实现上述目的及其他相关目的,本申请的第一方面提供一种基于强化学
3、通过边缘计算层从与之建立有通信连接的转轮除湿系统采集实时运行数据,并对所述转轮除湿系统的实时运行数据进行预处理;
4、将预处理后的实时运行数据输入至被部署于云平台层的预训练的强化学习控制器;所述强化学习控制器根据所输入的预处理后的实时运行数据,生成用于调整转轮除湿系统运行参数的最优策略;
5、所述云平台层基于所述强化学习控制器生成的最优策略,通过所述边缘计算层向所述转轮除湿系统下发指令,以使转轮除湿系统实时执行最优策略。
6、于本申请的第一方面的一些实施例中,所述强化学习控制器的训练过程包括:将转轮除湿系统当前运行时的特征变量定义为柔性动作-评价算法的状态;以及,将强化学习控制器可执行的调控参数定义为柔性动作-评价算法的动作;基于柔性动作-评价算法的状态和动作建立对应的奖励函数;所述奖励函数用于平衡所述转轮除湿系统的湿度控制精度和系统能耗;所述柔性动作-评价算法包括策略网络和价值网络;采集所述转轮除湿系统的历史运行数据,并将所述历史运行数据输入至所述策略网络和所述价值网络进行训练;经训练好的策略网络基于转轮除湿系统的当前状态生成相应动作的概率分布,转轮除湿系统根据该相应的动作调整其运行参数并更新至下一状态,经训练好的价值网络评估当前状态-相应动作对的即时奖励,用于指导策略网络调整控制策略;该更新后的下一状态数据会实时反馈至策略网络,用于进一步优化策略网络的控制策略;转轮除湿系统、策略网络和价值网络在状态、动作和即时奖励的交互过程中不断迭代,直至策略网络和价值网络同时收敛。
7、于本申请的第一方面的一些实施例中,采用最小化时序差分误差对所述价值网络进行更新,其更新过程包括:基于强化学习控制器与转轮除湿系统的交互,收集经验数据;采用目标价值网络计算下一状态的目标期望值;对于当前状态和相应动作,计算价值网络的期望值估计与目标期望值之间的差异;基于期望值估计与目标期望值之间的差异对价值网络进行更新。
8、于本申请的第一方面的一些实施例中,基于最大化价值网络输出的期望值对所述策略网络进行更新,其更新过程包括:从策略网络当前的策略分布中采集相应动作,给定当前状态;并计算当前状态下采取相应动作的对数概率;基于评估网络对当前状态-相应动作对进行评估,获取期望值估计;根据策略网络的损失函数,结合熵正则化系数,计算损失值;并计算损失函数关于策略网络的梯度;通过梯度上升方法对策略网络的参数进行更新。
9、于本申请的第一方面的一些实施例中,所述奖励函数的公式为:
10、r(st,at)=ω1(-|ht-ha|)+ω2(-etotal)+αh(π);
11、其中,r(st,at)为在当前状态st执行动作at后获得的奖励;ht为在时间t的目标湿度;ha为动作at下的当前实际湿度;etotal为系统总能耗;ω1和ω2均为权重因子;α为熵调节系数;π表示在当前状态st执行动作at的概率分布;h(π)为策略熵。
12、如此设计,在转轮除湿系统这个应用场景中,设计奖励函数用于平衡转轮除湿系统的湿度控制精度与系统能耗之间的关系,从而实现精确控制湿度和能耗优化。
13、于本申请的第一方面的一些实施例中,所述对所述转轮除湿系统的实时运行数据进行预处理的方式包括:对采集到的所述转轮除湿系统的实时运行数据进行清洗,以去除异常值和噪声;采用自监督学习与数据增强方法对清洗后的实时运行数据进行特征增强,以提升数据的表示能力;对特征增强后的实时运行数据进行归一化和标准化处理,以消除不同数据类型的量纲差异;基于皮尔逊相关系数法将归一化和标准化处理后的数据进行降维,以去除冗余特征;将降维处理后的数据进行集成,以形成统一的运行数据库。
14、为实现上述目的及其他相关目的,本申请的第二方面提供一种基于强化学习和物联网平台的转轮除湿控制系统,包括:
15、采集处理模块,用于通过边缘计算层从与之建立有通信连接的转轮除湿系统采集实时运行数据,并对所述转轮除湿系统的实时运行数据进行预处理;
16、最优策略生成模块,用于将预处理后的实时运行数据输入至被部署于云平台层的预训练的强化学习控制器;所述强化学习控制器根据所输入的预处理后的实时运行数据,生成用于调整转轮除湿系统运行参数的最优策略;
17、执行指令模块,用于所述云平台层基于所述强化学习控制器生成的最优策略,通过所述边缘计算层向所述转轮除湿系统下发指令,以使转轮除湿系统实时执行最优策略。
18、为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法。
19、为实现上述目的及其他相关目的,本申请的第四方面提供一种计算机程序产品,所述计算机程序产品中包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得所述计算机实现所述方法。
20、为实现上述目的及其他相关目的,本申请的第五方面提供一种计算机装置/设备/系统/电子终端,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序以实现所述方法。
21、如上所述,本申请的基于强化学习和物联网平台的转轮除湿控制方法、系统、介质、终端及程序产品,具有以下有益效果:
22、以边缘计算层为核心,实时采集和处理转轮除湿系统的运行数本文档来自技高网...
【技术保护点】
1.一种基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,包括:
2.根据权利要求1所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,所述强化学习控制器的训练过程包括:
3.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,采用最小化时序差分误差对所述价值网络进行更新,其更新过程包括:
4.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,基于最大化价值网络输出的期望值对所述策略网络进行更新,其更新过程包括:
5.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,所述奖励函数的公式为:
6.根据权利要求1所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,所述对所述转轮除湿系统的实时运行数据进行预处理的方式包括:
7.一种基于强化学习和物联网平台的转轮除湿控制系统,其特征在于,包括:
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6
9.一种计算机程序产品,其特征在于,所述计算机程序产品中包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得所述计算机实现如权利要求1至6中任一项所述方法。
10.一种电子终端,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至6中任一项所述方法。
...【技术特征摘要】
1.一种基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,包括:
2.根据权利要求1所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,所述强化学习控制器的训练过程包括:
3.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,采用最小化时序差分误差对所述价值网络进行更新,其更新过程包括:
4.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,基于最大化价值网络输出的期望值对所述策略网络进行更新,其更新过程包括:
5.根据权利要求2所述的基于强化学习和物联网平台的转轮除湿控制方法,其特征在于,所述奖励函数的公式为:
6.根据权利要求1所述的基于...
【专利技术属性】
技术研发人员:于兵,张欣林,马利英,汪德龙,刘冠军,郑丽丽,
申请(专利权)人:上海碳之衡能源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。