一种基于强化学习的电能计量检定环境控制方法和系统技术方案

技术编号:29302917 阅读:11 留言:0更新日期:2021-07-17 01:33
本发明专利技术公开了一种基于强化学习的电能计量检定环境控制方法及系统,其中方法包括:设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,直到所述实时环境参数等于期望的环境参数。本发明专利技术能够解决的PID控制算法的缺陷,在提高控制精度的同时,还能获得更加稳定的控制效果。还能获得更加稳定的控制效果。还能获得更加稳定的控制效果。

An environment control method and system of electric energy measurement and verification based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的电能计量检定环境控制方法和系统


[0001]本专利技术涉及电能计量
,特别是涉及一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质。

技术介绍

[0002]目前,在电能计量检定系统中,涉及各种类型高精度计量装置和计量检定设备,其中各种计量器具检定规程中,规定了检定器具时的温度、相对湿度等环境条件;当环境条件达不到规程要求时,将会对检定结果产生较大的影响,造成较大的检定误差,可能使计量器具的准确性达不到要求,检定结果可信度降低,甚至无法满足法定要求。因此,在检定中心,环境的温/湿度,气压等参数的可靠控制,显得尤为重要,是保障可靠检定结果的重要影响因素。
[0003]在目前环境参数控制系统中,不同的环境参数的控制回路之间是隔离的,比如环境温度控制回路,仅负责温度的控制,环境湿度的控制回路,只则负责环境湿度控制,无法实现控制回路之间的参数交互。且每一项环境参数的控制回路都是基于简单的PID算法实现。但是,PID的控制是一种基于误差的积微分的简单控制,对于多变化、多稠合的系统来说,容易引起超调和滞后,无法进行精确额控制;控制效果极度依赖于调试人员经验。

技术实现思路

[0004]本专利技术的目的是:提供一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和存储介质,能够解决的PID控制算法的缺陷,在提高控制精度的同时,还能获得更加稳定的控制效果。
[0005]为了实现上述目的,本专利技术提供了一种基于强化学习的电能计量检定环境控制方法,包括:
[0006]S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;
[0007]S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
[0008]S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102-S103,直到所述实时环境参数等于期望的环境参数。
[0009]进一步地,所述预设的强化学习模型,包括:
[0010]通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
[0011]Q(S,A)

(1

α)*Q(S,A)+α*[R+γ*max
a
Q(S',a)][0012]其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,max
a
Q(S',a)表示在状态S'下最大的Q值,R是奖励值。
[0013]进一步地,所述奖励值,具体采用如下公式:
[0014][0015]其中,W
T
,W
H
,W
P
,表示环境参数权重,范围都是[0,1],且满足sum(W
T
,W
H
,W
P
)=1,N,K,M分别表示温度传感器,湿度传感器,和压力传感器的个数,t
i
表示第i个温度传感器的温度值,
i
表示第i个湿度传感器的湿度值,p
i
表示第i个压力传感器的气压值,T
sp
,H
sp
,P
sp
分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
[0016]进一步地,所述获取实时环境参数,包括:
[0017]通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...t
n
}表示N个温度采样点采样的环境温度,其中t
n
表示第n个传感器,H={h0,h1,...h
k
}表示k个湿度采样点采样的环境湿度值,其中h
k
表示第k个传感器,P={p0,p1,...p
m
}表示m个气压采样点的环境气压,其中p
m
表示第m个传感器;则环境当前的状态表示为为各传感器采样值的均值。
[0018]本专利技术还提供一种基于强化学习的电能计量检定环境控制系统,包括:设置模块、调节模块和控制模块,其中,
[0019]所述设置模块,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和气压;
[0020]所述调节模块,用于根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;
[0021]控制模块,用于获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行调用调节模块和控制模块,直到所述实时环境参数等于期望的环境参数。
[0022]进一步地,所述预设的强化学习模型,包括:
[0023]通过设置学习速率和折扣因子,构建强化学习模型,公式如下:
[0024]Q(S,A)

(1

α)*Q(S,A)+α*[R+γ*max
a
Q(S',a)][0025]其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,max
a
Q(S',a)表示在状态S'下最大的Q值,R是奖励值。
[0026]进一步地,所述奖励值,具体采用如下公式:
[0027][0028]其中,W
T
,W
H
,W
P
,表示环境参数权重,范围都是[0,1],且满足sum(W
T
,W
H
,W
P
)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,t
i
表示第i个温度传感器的温度值,
i
表示第i个湿度传感器的湿度值,p
i
表示第i个压力传感器的气压值,T
sp
,H
sp
,P
sp
分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。
[0029]进一步地,所述获取实时环境参数,包括:
[0030]通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...t
n
}表示N个温度采样点采样的环境温度,其中tn本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的电能计量检定环境控制方法,其特征在于,包括:S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102

S103,直到所述实时环境参数等于期望的环境参数。2.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述预设的强化学习模型,包括:通过设置学习速率和折扣因子,构建强化学习模型,公式如下:Q(S,A)

(1

α)*Q(S,A)+α*[R+γ*max
a
Q(S',a)]其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,max
a
Q(S',a)表示在状态S'下最大的Q值,R是奖励值。3.根据权利要求2所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述奖励值,具体采用如下公式:其中,W
T
,W
H
,W
P
,表示环境参数权重,范围都是[0,1],且满足sum(W
T
,W
H
,W
P
)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,t
i
表示第i个温度传感器的温度值,
i
表示第i个湿度传感器的湿度值,p
i
表示第i个压力传感器的气压值,T
sp
,H
sp
,P
sp
分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。4.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述获取实时环境参数,包括:通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...t
n
}表示N个温度采样点采样的环境温度,其中t
n
表示第n个传感器,H={h0,h1,...h
k
}表示k个湿度采样点采样的环境湿度值,其中h
k
表示第k个传感器,P={p0,p1,...p
m
}表示m个气压采样点的环境气压,其中p
m
表示第m个传感器;则环境当前的状态表示为为各传感器采样值的均值。5.一种基于强化学习的电能计量检定环境控制系统,其特征在于,包括:设置模块、调
节模块和控制模块,其中,所述设置模块,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和...

【专利技术属性】
技术研发人员:招景明赵炳辉黄友朋左右宇姚智聪彭龙李嘉杰
申请(专利权)人:广东电网有限责任公司计量中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1