一种基于近似模型规划的室内空气自适应控制方法技术

技术编号:18971690 阅读:29 留言:0更新日期:2018-09-19 03:20
本发明专利技术公开了一种基于近似模型规划的室内空气自适应控制方法,包括初始化当前状态、模型、超参数、环境和探索策略,根据探索策略选择动作执行,从而获得奖赏和下一状态,将当前状态、动作、奖赏和下一状态组成当前样本以更新模型、值函数和策略;在每个情节结束后将当前采样轨迹和重构的采样轨迹都加入轨迹池中,然后利用轨迹池中所有轨迹来更新模型;利用更新的模型产生模拟样本进行规划;当算法达到最大情节数并收敛时,就可以得到实现室内空气自适应控制的最优策略。本发明专利技术通过学习一个近似的环境模型,并利用学习的环境模型来进行规划,从而提高学习的效率。

An adaptive control method for indoor air based on approximate model planning

The invention discloses an indoor air adaptive control method based on approximate model planning, which includes initializing current state, model, super-parameter, environment and exploration strategy, choosing action execution according to exploration strategy, thereby obtaining reward and next state, and composing current state, action, reward and next state into current state. Samples update the model, value function and strategy; add the current sampling trajectory and reconstructed sampling trajectory to the trajectory pool at the end of each scenario, and then update the model with all the trajectories in the trajectory pool; generate simulation samples with the updated model for planning; when the algorithm reaches the maximum number of scenarios and converges, it can be used. In order to achieve the optimal strategy of indoor air adaptive control. The invention improves the learning efficiency by learning an approximate environment model and making use of the learning environment model to plan.

【技术实现步骤摘要】
一种基于近似模型规划的室内空气自适应控制方法
本专利技术涉及一种室内空气自适应控制方法,特别是涉及一种基于近似模型规划的室内空气自适应控制方法。
技术介绍
随着经济的发展和人们生活水平的提高,人们对于环境的重视程度也与日俱增。室内环境作为人们主要活动的一个场所,与人们的健康更为密切,因此,如何有效地实现室内空气的安全、清新和舒适,是提高人类自我体验的一个关键问题。目前大部分的室内环境中,仅仅安装了空调和空气净化器等设备,且它们之间是孤立存在的,需要单独来启动设备实现对空气温度的调节和空气的净化。对于一些危险的气体,如密闭空间中的甲醛和二氧化硫,单纯通过空气净化器无法实现快速调节而迅速将其室内含量降低到安全阈值以内,需要立即开窗进行对流。因此,需要增加窗户控制设备。然而,空调和空气净化器等设备都需要人工控制和调整,不具备智能性。因此需要设计相应的控制方法使得这些设备能自动地通过感知环境来启动和运转,实现对室内环境的实时自动控制。
技术实现思路
针对上述现有技术缺陷,本专利技术的任务在于提供一种基于近似模型规划的室内空气自适应控制方法,实现自动控制终端以满足室内空气环境要求,同时尽可能地实现室内人员的最大舒适感和满意度。本专利技术技术方案是这样的:一种基于近似模型规划的室内空气自适应控制方法,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数步骤3)、初始化算法的超参数,所述超参数包括:折扣率γ、衰减因子λ、情节数E、高斯函数的探索标准差ε、每个情节所包含的最大时间步S、值函数的学习率α1、策略的学习率α2、模型的学习率α和规划的次数K;步骤4)、初始化当前情节s=1;步骤5)、初始化当前状态xt=x,当前时间步t=1;步骤6)、选择动作:根据探索策略选择当前状态下应执行的动作ut=u;步骤7)、生成样本:在当前状态xt下,执行动作u,得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);步骤8)、采用样本(xt,ut,xt+1,rt+1)更新模型的状态迁移函数参数向量θ和奖赏函数参数向量υ;步骤9)、计算时间差分误差(TemporalDifference,TD)误差;步骤10)、更新资格迹:更新资格迹参数向量;步骤11)、更新值函数:更新值函数对应的参数向量;步骤12)、更新策略:更新策略对应的参数向量;步骤13)、更新当前状态:xt=xt+1;步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);否则,转入步骤5)继续执行;步骤15)、采用近似模型规划;步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;步骤17)、根据学习到最优策略来获取室内空气自适应控制的最优策略。作为优选的技术方案,步骤(2)中所述值函数近似表示为其中,为高斯函数,用于将状态x映射为特征向量,为中心点,σ1为状态维度的标准差,ξ为参数向量,其维度与特征向量保持一致;所述策略近似表示为其中特征向量与值函数的表示相同,ζ为策略参数向量;模型包含状态迁移函数和奖赏函数,迁移函数近似表示为奖赏函数近似表示为rt+1=φT(xt,ut)υt,其中为状态动作特征,为动作的中心点,σ2为动作维度的标准差,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量。作为优选的技术方案,步骤(6)中的探索策略采用高斯函数生成,在任意状态处所采取的动作根据得到,其中,h(x)=u*表示在状态x处根据最优策略得到的最优动作,ε为探索因子。作为优选的技术方案,步骤(8)中的更新模型采用单步的预测误差作为梯度信号:将单步的状态预测误差作为梯度,得到迁移函数参数向量更新公式为将单步的奖赏预测误差作为梯度,得到参数向量的更新公式为作为优选的技术方案,步骤(9)中的计算TD误差的计算公式为:ω=r+γV(xt+1)-V(xt)。作为优选的技术方案,步骤(10)中资格迹更新公式为:作为优选的技术方案,步骤(11)中值函数更新公式为:ξt+1=ξt+α1ωe(xt)。作为优选的技术方案,步骤(12)中策略更新公式为:ζt+1=ζt+α2ω(u-u*)Tφ(xt)。作为优选的技术方案,步骤(15)中的模型规划是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt生成下一个状态和奖赏,并利用该状态和奖赏来更新值函数参数向量ξt+1=ξt+α1ωe(xt)和策略参数向量ζtt+1=ζt+α2ω(u-u*)Tφ(xt)。本专利技术与现有技术相比的优点在于:基于近似模型规划的强化学习算法,通过学习一个近似的环境模型,并利用学习的环境模型来进行局部规划,从而提高学习的效率。通过不断采集终端设备(空气净化器和空调)自带传感器上的感知数据来学习最优策略,利用学习到的最优策略来启动相应的控制设备,启动相应的终端设备(窗户、空气净化器和空调)来对室内环境进行实时的自动控制。附图说明图1为本专利技术基于近似模型规划的室内空气自适应控制系统结构示意图;图2为本专利技术室内空气自适应控制系统中服务器结构示意图;图3为本专利技术基于近似模型规划的室内空气自适应控制系统的整体控制流程示意图;图4为本专利技术基于近似模型规划的室内空气自适应控制方法流程示意图。具体实施方式下面结合实施例对本专利技术作进一步说明,但不作为对本专利技术的限定。本实施例涉及的一种基于近似模型规划的室内空气自适应控制方法应用于如图1所示的室内空气自适应调整系统,该系统中的主要模块有:1、空气净化器2、空调3、窗户控制设备4、净化器控制设备5、空调控制设备6、显示和管理设备7、服务器和8手机APP。各模块间可采用无线网络连接,无线网络的组织方式采用了WI-FI网络,但也可以选择GPRS、3G、4G以及Zigbee作为无线通信网络。请结合图2所示,服务器的主要组成部分有中央控制器8a、存储单元8b、传感器单元8c,即包括温度传感器、湿度传感器、甲醛传感器、二氧化硫传感器、PM2.5传感器(传感器这部分已做扩展接口、可以方便增加新的传感器类型)等各种传感器以及各类控制设备的接口电路8d。再结合图3所示,传感器周期性的发送数据给服务器,服务器在接收到数据后,通过当前值与安全阈值的比较,来确定基于近似模型规划的强化学习算法的奖赏值,并将该数据作为样本数据输入基于近似模型规划的强化学习算法,学习用于控制的最优策略。此外,当采集的数据值超过安全阈值时,向控制设备发出控制命令,同时通过显示和管理设备发出警报提示室内人员,通过因特网发送信息到房主和租户的手机APP上,进行相关信息的提示。基于近似模型规划的室内空气自适应控制方法主要包含两个方面:首先,需要对数据进行判断和格式化:1)温度传感器:设定正常的温度值应为18℃~28℃,当温度位于这个区间时,温度值为正常值;2)湿度传感器:设定正常的湿度值为40%~60%,当湿度位于这个区间时,湿度值为正常值;3)甲醛传感器:设定正常的甲醛值为0~0.08mg/m3,当甲醛含量位于这个区间时,甲醛值为正常值;4)二氧化硫传感器本文档来自技高网...

【技术保护点】
1.一种基于近似模型规划的室内空气自适应控制方法,其特征在于,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数

【技术特征摘要】
1.一种基于近似模型规划的室内空气自适应控制方法,其特征在于,包括以下步骤:步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;步骤2)、初始化参数向量,所述参数向量包括:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数步骤3)、初始化算法的超参数,所述超参数包括:设置折扣率γ,衰减因子λ,情节数E,高斯函数的探索标准差ε,每个情节所包含的最大时间步S,值函数的学习率α1,策略的学习率α2,模型的学习率α,规划的次数K;步骤4)、初始化当前情节s=1;步骤5)、初始化当前状态xt=x,当前时间步t=1;步骤6)、选择动作:根据探索策略选择当前状态下应执行的动作ut=u;步骤7)、生成样本:在当前状态xt下,执行动作u,得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);步骤8)、采用样本(xt,ut,xt+1,rt+1)更新模型的状态迁移函数参数向量θ和奖赏函数参数向量υ;步骤9)、计算TD误差;步骤10)、更新资格迹:更新资格迹参数向量;步骤11)、更新值函数:更新值函数对应的参数向量;步骤12)、更新策略:更新策略对应的参数向量;步骤13)、更新当前状态:xt=xt+1;步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);否则,转入步骤5)继续执行;步骤15)、采用近似模型规划;步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;步骤17)、根据学习到最优策略来获取室内空气自适应控制的最优策略。2.根据权利要求1所述的基于近似模型规划的室内空气自适应控制方法,其特征在于,步骤(2)中所述值函数近似表示为其中,高斯函数用于将状态x映射为特征向量,为中心点,σ1为状态维度的标准差,参数向量ξ的维度与特征向量保持一致;所述策略近似表示为其中,特征向量与值函数的表示相同,ζ为策略参数...

【专利技术属性】
技术研发人员:钟珊龚声蓉伏玉琛王朝晖董瑞志姚宇峰
申请(专利权)人:常熟理工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1