【技术实现步骤摘要】
本专利技术涉及供热、供燃气、通风及空调工程,为建筑设备控制技术,具体为一种基于随机概率加权复合采样策略的q-learning算法暖通空调节能控制方法。
技术介绍
1、现有技术简介:目前暖通空调系统采用q-learning优化控制时的动作选择通常采取蒙特卡洛采样策略,是一种基于随机性的探索与利用的平衡方法。该采样方法通过从环境状态的不同动作中进行随机选择来进行探索,在训练初期,代理程序会以一定的概率随机选择动作;随着训练的进行,探索率逐渐减小,代理程序更加倾向于根据训练经验进行动作选择。这种动作采样可以在训练初期进行广泛的探索,以发现更多的状态-动作对,并逐渐减小探索率,使得在训练后期更加侧重于利用已学到的知识。
2、现有技术问题:传统的暖通空调系统控制方法通常基于蒙特卡洛动作采样在q-learning中通过随机选择动作来进行探索,无法适应系统的动态变化和复杂性。随机选择动作可能导致控制策略不稳定,不适合当前的系统状态,同时也无法充分利用历史训练数据中动作的经验信息,可能导致在训练过程中重复选择不良动作或忽略已知的优秀动作;在
...【技术保护点】
1.一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,工作流程下:
2.如权利要求1所述一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,步骤S101中,智能体的构造方法如下:
3.如权利要求1所述一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,步骤S101中,智能体初始化方法如下:
4.如权利要求1所述一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,步骤S103中,所述随机概率加权复合采样策略具体如下:
5.如权利要求4所述一种基于随机概率加权复合采样策略的暖
...【技术特征摘要】
1.一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,工作流程下:
2.如权利要求1所述一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,步骤s101中,智能体的构造方法如下:
3.如权利要求1所述一种基于随机概率加权复合采样策略的暖通空调控制方法,其特征在于,步骤s...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。