The invention discloses an indoor air adaptive control method based on approximate model planning, which includes initializing current state, model, super-parameter, environment and exploration strategy, choosing action execution according to exploration strategy, thereby obtaining reward and next state, and composing current state, action, reward and next state into current state. Samples update the model, value function and strategy; add the current sampling trajectory and reconstructed sampling trajectory to the trajectory pool at the end of each scenario, and then update the model with all the trajectories in the trajectory pool; generate simulation samples with the updated model for planning; when the algorithm reaches the maximum number of scenarios and converges, it can be used. In order to achieve the optimal strategy of indoor air adaptive control. The invention improves the learning efficiency by learning an approximate environment model and making use of the learning environment model to plan.
【技术实现步骤摘要】
一种基于近似模型规划的室内空气自适应控制方法
本专利技术涉及一种室内空气自适应控制方法,特别是涉及一种基于近似模型规划的室内空气自适应控制方法。
技术介绍
随着经济的发展和人们生活水平的提高,人们对于环境的重视程度也与日俱增。室内环境作为人们主要活动的一个场所,与人们的健康更为密切,因此,如何有效地实现室内空气的安全、清新和舒适,是提高人类自我体验的一个关键问题。目前大部分的室内环境中,仅仅安装了空调和空气净化器等设备,且它们之间是孤立存在的,需要单独来启动设备实现对空气温度的调节和空气的净化。对于一些危险的气体,如密闭空间中的甲醛和二氧化硫,单纯通过空气净化器无法实现快速调节而迅速将其室内含量降低到安全阈值以内,需要立即开窗进行对流。因此,需要增加窗户控制设备。然而,空调和空气净化器等设备都需要人工控制和调整,不具备智能性。因此需要设计相应的控制方法使得这些设备能自动地通过感知环境来启动和运转,实现对室内环境的实时自动控制。
技术实现思路
针对上述现有技术缺陷,本专利技术的任务在于提供一种基于近似模型规划的室内空气自适应控制方法,实现自动控制终端以满足室内空气环境要求,同时尽可能地实现室内人员的最大舒适感和满意度。本专利技术技术方案是这样的:一种基于近似模型规划的室内空气自适应控制方法,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数步骤3)、初始化算法的超参数,所述超参数包括:折扣率γ、衰减因子λ、情节数E、高斯函数的探索 ...
【技术保护点】
1.一种基于近似模型规划的室内空气自适应控制方法,其特征在于,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数
【技术特征摘要】
1.一种基于近似模型规划的室内空气自适应控制方法,其特征在于,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数步骤3)、初始化算法的超参数,所述超参数包括:设置折扣率γ,衰减因子λ,情节数E,高斯函数的探索标准差ε,每个情节所包含的最大时间步S,值函数的学习率α1,策略的学习率α2,模型的学习率α,规划的次数K;步骤4)、初始化当前情节s=1;步骤5)、初始化当前状态xt=x,当前时间步t=1;步骤6)、选择动作:根据探索策略选择当前状态下应执行的动作ut=u;步骤7)、生成样本:在当前状态xt下,执行动作u,得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);步骤8)、采用样本(xt,ut,xt+1,rt+1)更新模型的状态迁移函数参数向量θ和奖赏函数参数向量υ;步骤9)、计算TD误差;步骤10)、更新资格迹:更新资格迹参数向量;步骤11)、更新值函数:更新值函数对应的参数向量;步骤12)、更新策略:更新策略对应的参数向量;步骤13)、更新当前状态:xt=xt+1;步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);否则,转入步骤5)继续执行;步骤15)、采用近似模型规划;步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;步骤17)、根据学习到最优策略来获取室内空气自适应控制的最优策略。2.根据权利要求1所述的基于近似模型规划的室内空气自适应控制方法,其特征在于,步骤(2)中所述值函数近似表示为其中,高斯函数用于将状态x映射为特征向量,为中心点,σ1为状态维度的标准差,参数向量ξ的维度与特征向量保持一致;所述策略近似表示为其中,特征向量与值函数的表示相同,ζ为策略参数...
【专利技术属性】
技术研发人员:钟珊,龚声蓉,伏玉琛,王朝晖,董瑞志,姚宇峰,
申请(专利权)人:常熟理工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。