一种基于深度强化学习的大型商场能耗实时控制方法和系统技术方案

技术编号:22884969 阅读:21 留言:0更新日期:2019-12-21 07:39
本发明专利技术涉及一种基于深度强化学习的大型商场能耗实时控制方法和系统。主要是获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO

A real-time control method and system of energy consumption in large shopping malls based on deep reinforcement learning

【技术实现步骤摘要】
一种基于深度强化学习的大型商场能耗实时控制方法和系统
本专利技术涉及自适应调节控制领域,特别是涉及基于深度强化学习的大型商场能耗实时控制方法和系统。
技术介绍
目前,随着大型大型商场能耗设备的不断装配,在控制能耗的同时又能保证大型商场内部人员舒适感成为一个急需解决的问题。
技术实现思路
基于此,提供一种基于深度强化学习的大型商场能耗实时控制方法。在控制能耗的同时兼顾大型商场内部人员的舒适感。一种基于深度强化学习的大型商场能耗实时控制方法,包括:获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息,根据环境状态信息建立环境模型,根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略,通过将最优控制策略生成控制指令来控制空调和风机的运转。上述方法同时考虑了能耗,温度、湿度、PM2.5浓度,CO2浓度以及人流量,在控制能耗的同时兼顾大型商场内部人员的舒适感。在其中一个实施例中,所述根据环境信息建立环境模型包括:将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态,动作以及立即奖赏函数,具体为:a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3),以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:St=(ME,MT,MH,MP,MC,MM),b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作a用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:a={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,rS=MS-Mg,其中,MS计算公式如下:Ms=IE×40%+IS×24%+IA×12%+IC×12%+IM×12%,这里,IE=ME-ME-min/ME-max-ME-min,IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,IC=MC/1500,IM=MM-MM平均/MM标准差;建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。在其中一个实施例中,所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括:1)初始化记忆回放单元,容量是N,用于储存训练的样本;2)初始化两个估值网络,随机初始化权重参数θ;初始化两个目标网络,结构以及初始化权重与估值网络相同;3)将环境状态信息通过双网络DQN算法计算出值函数后,得到任意状态s下的Q(s,a),使用ε-greedy策略来选择动作a,每一次状态转移(即做出动作)记为一个时间步t,得到下一个时间步s′的状态值,将每个时间步得到的数据(s,a,r,s′)存入回放记忆单元,4)定义一个损失函数:L(θ)={α[Qm-2(s,a;θ2)-Qm-1(s,a;θ3)]-(α-1)[Qm-1(s,a;θ4)-Qm-2(s,a;θ2)]}2其中,α是可调参数,θ2为双网络中DQN_1模型目标网络的参数,θ3与θ4分别为DQN_2模型中估值网络和目标网络中的参数,模型训练的每一步更新过程中,参数更新如下:将DQN_2中估值网络的参数传递给DQN_1中的估值网络,且同时保持自身的更新,即θ3=θ1,θ3=θ3′,其中θ3′表示DQN_2中估值网络下一状态的权重参数;每间隔N步,将DQN_1中的估值网络参数传递给目标网络,即θ2=θ1,且同时将DQN_2中的估值网络参数传递给目标网络,即θ4=θ3;5)从回放记忆单元中随机抽取一个(s,a,r,s′),将(s,a),s′,r分别传给估值网络,目标值网络和L(θ),对L(θ)关于θ使用梯度下降法进行更新,求解出最优策略,双网络DQN算法更新值函数的方式如下:Q(s,a)←Q(s,a)+β[r+γmaxa′Q(s′,a′;θ)-Q(s,a)],其中β为学习率,γ为折扣因子,根据实际收敛情况调整;6)每N次迭代后更新目标值网络的参数为估值网络的参数。一种基于深度强化学习的大型商场能耗实时控制系统,包括:信息获取单元,所述信息获取单元用于获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息;数据处理终端,所送数据处理终端包括建模单元和决策单元,所述建模单元用于根据环境状态信息建立环境模型,所述决策单元用于根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略;控制执行单元,所述控制执行单元通过将最优控制策略生成控制指令来控制空调和风机的运转。在其中一个实施例中,所述信息获取单元包括数据采集模块、摄像头和传感器,所述数据采集模块用于获取摄像头和传感器的数据。在其中一个实施例中,所述传感器包括AM2301温湿度传感器,所述AM2301温湿度传感器用于获取温度数据信息和湿度数据信息。在其中一个实施例中,所述传感器包括CO2传感器,所述CO2传感器的型号为TGS4160,所述CO2传感器用于获取CO2浓度数据信息。在其中一个实施例中,所述传感器包括PSMU系列PM2.5传感器,所述PSMU系列PM2.5传感器用于获取PM2.5浓度数据信息。在其中一个实施例中,所述控制执行单元包括协调器模块和执行器,所述协调器模块分别与信息获取单元、数据处理终端以及执行器相连,所述协调器模块用于将最优控制策略生成控制指令,所述执行器用于根据控制指令控制空调以及风机的运转。在其中一个实施例中,还包括上位机,所述上位机与所述数据处理终端相连,所述上位机用于显示所述环境状态信息。附图说明图1为本专利技术的实施例的大型商场能耗实时控制方法的流程图。图2为本专利技术的实施例的大型商场能耗实时控制方法的双网络DQN算法的原理图。图3为本专利技术的实施例的大型商场能耗实时控制系统的示意图。图4为本专利技术的实施例的大型商场能耗实时控制系统的数据处理终端的示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施例的限制。需要说明的是,当元件被称本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的大型商场能耗实时控制方法,其特征在于,包括:/n获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO

【技术特征摘要】
1.一种基于深度强化学习的大型商场能耗实时控制方法,其特征在于,包括:
获取环境状态信息,所述环境状态信息包括:能耗数据信息,温度数据信息、湿度数据信息、PM2.5浓度数据信息,CO2浓度数据信息,人流量数据信息,
根据环境状态信息建立环境模型,
根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略,
通过将最优控制策略生成控制指令来控制空调和风机的运转。


2.根据权利要求1所述的基于深度强化学习的大型商场能耗实时控制方法,其特征在于,所述根据环境信息建立环境模型包括:
将空调能耗控制问题建模为一个马尔科夫决策过程模型,并定义其中的状态,动作以及立即奖赏函数,具体为:
a)状态,用s表示,设t时刻,能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(%RH)、PM2.5浓度数据信息为MP(μg/m3),以及CO2浓度数据信息为MC(ppm),此时人流量数据信息为MM(人/s),则此时刻的状态可表示为:
St=(ME,MT,MH,MP,MC,MM),
b)动作,用a表示,设空调的温度为OT,风机的功率为OW,t时刻的动作a用[设置温度,风机功率]表示,则t时刻可采取的动作集合为:
a={[OT0,OW0],[OT1,OW1],[OT2,OW2],...},
c)立即奖赏函数,用r表示,MS是当前状态下的环境质量,Mg是状态环境质量的目标值,
rS=MS-Mg,
其中,MS计算公式如下:
Ms=IE×40%+IS×24%IA×12%+IC×12%+IM×12%,
这里,IE=ME-ME-min/ME-max-ME-min,
IS=(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2,



IC=MC/1500,IM=MM-MM平均/MM标准差;
建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,动作值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。


3.根据权利要求1或2所述的基于深度强化学习的大型商场能耗实时控制方法,其特征在于,所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括:
1)初始化记忆回放单元,容量是N,用于储存训练的样本;
2)初始化两个估值网络,随机初始化权重参数θ;
初始化两个目标网络,结构以及初始化权重与估值网络相同;
3)将环境状态信息通过双网络DQN算法计算出值函数后,得到任意状态s下的Q(s,a),使用ε-greedy策略来选择动作a,每一次状态转移(即做出动作)记为一个时间步t,得到下一个时间步s′的状态值,将每个时间步得到的数据(s,a,r,s′)存入回放记忆单元,
4)定义一个损失函数:
L(θ)={α[Qm-2(s,a;θ2)-Qm-1(s,a;θ3)]-(α-1)[Qm-1(s,a;θ4)-Qm-2(s,a;θ2)]}2其中,α是可调参数,θ2为双网络中DQN_1模型目标网络的参数,...

【专利技术属性】
技术研发人员:陈建平周鑫傅启明高振许洪华
申请(专利权)人:珠海米枣智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1