【技术实现步骤摘要】
一种基于强化学习的电能计量检定环境控制方法和系统
[0001]本专利技术涉及电能计量
,特别是涉及一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和计算机可读存储介质。
技术介绍
[0002]目前,在电能计量检定系统中,涉及各种类型高精度计量装置和计量检定设备,其中各种计量器具检定规程中,规定了检定器具时的温度、相对湿度等环境条件;当环境条件达不到规程要求时,将会对检定结果产生较大的影响,造成较大的检定误差,可能使计量器具的准确性达不到要求,检定结果可信度降低,甚至无法满足法定要求。因此,在检定中心,环境的温/湿度,气压等参数的可靠控制,显得尤为重要,是保障可靠检定结果的重要影响因素。
[0003]在目前环境参数控制系统中,不同的环境参数的控制回路之间是隔离的,比如环境温度控制回路,仅负责温度的控制,环境湿度的控制回路,只则负责环境湿度控制,无法实现控制回路之间的参数交互。且每一项环境参数的控制回路都是基于简单的PID算法实现。但是,PID的控制是一种基于误差的积微分的简单控制,对于多变化、多稠合的系统来说,容易引起超调和滞后,无法进行精确额控制;控制效果极度依赖于调试人员经验。
技术实现思路
[0004]本专利技术的目的是:提供一种基于强化学习的电能计量检定环境控制方法、系统、终端设备和存储介质,能够解决的PID控制算法的缺陷,在提高控制精度的同时,还能获得更加稳定的控制效果。
[0005]为了实现上述目的,本专利技术提供了一种基于强化学习的电能计量检定环境控制方法, ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的电能计量检定环境控制方法,其特征在于,包括:S101、设置期望的环境参数,其中,所述环境参数包括:温度、湿度和气压;S102、根据所述期望的环境参数,通过环境参数控制器的调节参数,控制环境调节设备改变环境参数,其中,所述调节参数包括:温度调节设备的调节动作、湿度调节设备的调节动作和气压调节设备的调节动作;S103、获取实时环境参数,并根据预设的强化学习模型,获取下一步的调节参数,重复执行步骤S102
‑
S103,直到所述实时环境参数等于期望的环境参数。2.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述预设的强化学习模型,包括:通过设置学习速率和折扣因子,构建强化学习模型,公式如下:Q(S,A)
←
(1
‑
α)*Q(S,A)+α*[R+γ*max
a
Q(S',a)]其中,Q(S,A)表示Q表中当前状态S和对应的动作A,α是学习速率,γ表示折扣因子,S'表示动作A执行完成后,系统环境到达的状态,Q(S',a)是表示在S'状态在所有动作下Q值的集合,max
a
Q(S',a)表示在状态S'下最大的Q值,R是奖励值。3.根据权利要求2所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述奖励值,具体采用如下公式:其中,W
T
,W
H
,W
P
,表示环境参数权重,范围都是[0,1],且满足sum(W
T
,W
H
,W
P
)=1,N,K,M分别表示温度传感器,湿度传感器和压力传感器的个数,t
i
表示第i个温度传感器的温度值,
i
表示第i个湿度传感器的湿度值,p
i
表示第i个压力传感器的气压值,T
sp
,H
sp
,P
sp
分别表示系统设定的温度,湿度,气压值,ε是一个余项,防止除0操作。4.根据权利要求1所述的基于强化学习的电能计量检定环境控制方法,其特征在于,所述获取实时环境参数,包括:通过传感器获取实时温度数据、湿度数据以及气压数据,将所述实时温度数据、湿度数据以及气压数据组成环境参数,其中,环境参数采用D={T,H,P}表示,其中T={t0,t1,...t
n
}表示N个温度采样点采样的环境温度,其中t
n
表示第n个传感器,H={h0,h1,...h
k
}表示k个湿度采样点采样的环境湿度值,其中h
k
表示第k个传感器,P={p0,p1,...p
m
}表示m个气压采样点的环境气压,其中p
m
表示第m个传感器;则环境当前的状态表示为为各传感器采样值的均值。5.一种基于强化学习的电能计量检定环境控制系统,其特征在于,包括:设置模块、调
节模块和控制模块,其中,所述设置模块,用于设置期望的环境参数、学习速率和折扣因子,其中,所述环境参数包括:温度、湿度和...
【专利技术属性】
技术研发人员:招景明,赵炳辉,黄友朋,左右宇,姚智聪,彭龙,李嘉杰,
申请(专利权)人:广东电网有限责任公司计量中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。