一种基于深度强化学习的大型商场能耗实时控制方法和系统技术方案

技术编号：22884969 阅读：21 留言：0更新日期：2019-12-21 07:39

本发明专利技术涉及一种基于深度强化学习的大型商场能耗实时控制方法和系统。主要是获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO

A real-time control method and system of energy consumption in large shopping malls based on deep reinforcement learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的大型商场能耗实时控制方法和系统
本专利技术涉及自适应调节控制领域，特别是涉及基于深度强化学习的大型商场能耗实时控制方法和系统。
技术介绍
目前，随着大型大型商场能耗设备的不断装配，在控制能耗的同时又能保证大型商场内部人员舒适感成为一个急需解决的问题。
技术实现思路
基于此，提供一种基于深度强化学习的大型商场能耗实时控制方法。在控制能耗的同时兼顾大型商场内部人员的舒适感。一种基于深度强化学习的大型商场能耗实时控制方法，包括：获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO2浓度数据信息，人流量数据信息，根据环境状态信息建立环境模型，根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略，通过将最优控制策略生成控制指令来控制空调和风机的运转。上述方法同时考虑了能耗，温度、湿度、PM2.5浓度，CO2浓度以及人流量，在控制能耗的同时兼顾大型商场内部人员的舒适感。在其中一个实施例中，所述根据环境信息建立环境模型包括：将空调能耗控制问题建模为一个马尔科夫决策过程模型，并定义其中的状态，动作以及立即奖赏函数，具体为：a)状态，用s表示，设t时刻，能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(％RH)、PM2.5浓度数据信息为MP(μg/m3)，以及CO2浓度数据信息为MC(ppm)，此时人流量数据信息为MM(人/s)，则...

【技术保护点】
1.一种基于深度强化学习的大型商场能耗实时控制方法，其特征在于，包括：/n获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO

【技术特征摘要】
1.一种基于深度强化学习的大型商场能耗实时控制方法，其特征在于，包括：
获取环境状态信息，所述环境状态信息包括：能耗数据信息，温度数据信息、湿度数据信息、PM2.5浓度数据信息，CO2浓度数据信息，人流量数据信息，
根据环境状态信息建立环境模型，
根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略，
通过将最优控制策略生成控制指令来控制空调和风机的运转。

2.根据权利要求1所述的基于深度强化学习的大型商场能耗实时控制方法，其特征在于，所述根据环境信息建立环境模型包括：
将空调能耗控制问题建模为一个马尔科夫决策过程模型，并定义其中的状态，动作以及立即奖赏函数，具体为：
a)状态，用s表示，设t时刻，能耗数据信息为ME(kwh)、温度数据信息为MT(℃)、湿度数据信息为MH(％RH)、PM2.5浓度数据信息为MP(μg/m3)，以及CO2浓度数据信息为MC(ppm)，此时人流量数据信息为MM(人/s)，则此时刻的状态可表示为：
St＝(ME，MT，MH，MP，MC，MM)，
b)动作，用a表示，设空调的温度为OT，风机的功率为OW，t时刻的动作a用[设置温度，风机功率]表示，则t时刻可采取的动作集合为：
a＝{[OT0，OW0]，[OT1，OW1]，[OT2，OW2]，...}，
c)立即奖赏函数，用r表示，MS是当前状态下的环境质量，Mg是状态环境质量的目标值，
rS＝MS-Mg，
其中，MS计算公式如下：
Ms＝IE×40％+IS×24％IA×12％+IC×12％+IM×12％，
这里，IE＝ME-ME-min/ME-max-ME-min，
IS＝(1.818MT+18.18)×(0.88+0.002MH)+(MT-32)/(45-MT)+18.2，

IC＝MC/1500，IM＝MM-MM平均/MM标准差；
建立值函数回报模型，设R(s，a)表示在状态s下采用动作a的回报值，动作值函数Q(s，a)是关于R(s，a)的期望，则Q(s，a)＝E[R(s，a)]。

3.根据权利要求1或2所述的基于深度强化学习的大型商场能耗实时控制方法，其特征在于，所述根据环境模型通过双网络DQN算法获得空调和风机的最优控制策略包括：
1)初始化记忆回放单元，容量是N，用于储存训练的样本；
2)初始化两个估值网络，随机初始化权重参数θ；
初始化两个目标网络，结构以及初始化权重与估值网络相同；
3)将环境状态信息通过双网络DQN算法计算出值函数后，得到任意状态s下的Q(s，a)，使用ε-greedy策略来选择动作a，每一次状态转移(即做出动作)记为一个时间步t，得到下一个时间步s′的状态值，将每个时间步得到的数据(s，a，r，s′)存入回放记忆单元，
4)定义一个损失函数：
L(θ)＝{α[Qm-2(s，a；θ2)-Qm-1(s，a；θ3)]-(α-1)[Qm-1(s，a；θ4)-Qm-2(s，a；θ2)]}2其中，α是可调参数，θ2为双网络中DQN_1模型目标网络的参数，...

【专利技术属性】
技术研发人员：陈建平，周鑫，傅启明，高振，许洪华，
申请(专利权)人：珠海米枣智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人