一种基于强化学习的光照度调整方法技术

技术编号:39059963 阅读:23 留言:0更新日期:2023-10-12 19:53
本发明专利技术公开了一种基于强化学习的光照度调整方法,以解决现有技术无法同时对可见光光源阵列中各个可调光源进行调节,使得多个照度测试点位同时达到照度要求的问题。本发明专利技术通过同时收集各个照度测试点位照度计的反馈值,利用强化学习方法,自动调节可见光光源阵列中的各个可调可见光光源的控制参数值,通过算法的不断迭代,实现调节自动化的同时还能够满足各个照度测试点位的照度要求。利用本发明专利技术提供的控制方法,可以有效的解决可见光光源阵列对于各个辐射点位的照度控制需求,完善并丰富可见光光源阵列的应用场景。光光源阵列的应用场景。光光源阵列的应用场景。

【技术实现步骤摘要】
一种基于强化学习的光照度调整方法


[0001]本专利技术涉及光照度控制方法,具体涉及一种基于强化学习的光照度调整方法。

技术介绍

[0002]可见光光源是一类十分常见的照明设备,这类设备通常包括Led光源、氙灯光源、白炽灯等。当可见光光源点亮后,可以通过照度计测量照度值,来表征在一定距离下可见光光源的光强程度。该照度值的测量通常利用照度计在与可见光光源一定距离处读取测量值来实现,测量值的读数通常以勒克斯(Lux,符号lx)为单位进行计量。而对于可见光光源的照度值的调节,通常利用改变可见光光源控制器中的控制参数(电压、电流等),进而单调而连续地改变可见光光源的照度值。所以,在与可见光光源一定距离处的照度值与控制可见光光源照度的控制参数有一定的单调映射关系,记为:E=F(A),其中E表示照度值,A表示控制可见光光源照度值的控制参数,E随着A的增大而增大。当然如果照度计距离可见光光源的远近不同时,其映射函数F会有所不同,但是F将A映射到E的单调递增关系不会改变,其中A和E均为连续值。
[0003]在利用可见光光源进行照明时,有一类照明应用会根据对可见光光源的具体使用场景,对可见光光源辐照范围内的某一固定点位放置照度计,通过改变可见光光源的控制参数,将照度计显示的照度值调节至一个大致满足应用需求的范围内。这种应用需求的操作可以通过人工调节的方式进行,因为这种调节只涉及到单一可见光光源的照度值调节,操作较为简便。而当单一可见光光源扩展至可见光光源阵列时,且对于光源阵列辐照范围内多个点位的照度值都有一定的控制需求时,就需要对光源阵列中的多个可调单元同时进行调节,这种调节的工作量十分巨大,往往无法用人工调节的方式来进行操作。
[0004]而在实际应用中,对于可见光光源阵列的使用及其控制需求又是十分普遍的,如用于电池阵帆板测试的氙灯阵列、用于照明的LED光源阵列等等。这些可见光光源阵列的特点都是由多个单一可见光光源组成,每个可见光光源或若干个可见光光源可以通过控制参数的调节对照度进行调节。而如前所述,在这些对于可见光光源阵列的应用场合,需要对可见光光源阵列辐照范围内的若干点位的照度值进行控制满足某种特殊的辐照需求,即在可见光光源阵列的辐照范围内关注的测试点放置照度计,通过调节可见光光源阵列中的各个可调光源的控制参数,使得这些照度计所显示的值能够同时满足一定范围内的照度要求。由于可见光光源阵列在辐射范围内的各点照度值是所有光源复杂叠加形成的,故通过人为调节各个可调光源的照度值进而同时满足各个测试点位的照度值要求是非常困难,且不现实的。另外,由于可见光光源阵列中的各个可见光光源的不一致性和照度需求的多样化,并不可能利用光源控制参数进行简单的照度线性叠加以其同时满足各个照度控制需求,因为该控制需求是一个典型的多目标、多变量的非凸优化问题,很难用常规的数学方法进行求解,而人工手动调整各个可调光源使得多个照度测试点位同时达到照度要求更是无法实现有效控制。

技术实现思路

[0005]本专利技术的目的是提供一种基于强化学习的光照度调整方法,以解决现有技术无法同时对可见光光源阵列中各个可调光源进行调节,使得多个照度测试点位同时达到照度要求的技术问题。
[0006]为了达到上述目的,本专利技术提供一种基于强化学习的光照度调整方法,用于可见光光源阵列,其特殊之处在于,包括以下步骤:
[0007]步骤1、所述可见光光源阵列包括n个可见光光源,其中m个可见光光源可通过控制参数调整光照度,用集合Φ={L1,L2,

,L
m
}表示,n≥2,n≥m;第k个可见光光源的照度控制参数值为参数可调范围为1≤k≤m,L
k
∈Φ,可见光光源阵列辐照范围内放置有p个用于监视并实时反馈照度值的照度计,用集合Γ={Z1,Z2,

,Z
p
}表示,第r个照度计的最终调节值满足1≤r≤p,Z
r
∈Γ;
[0008]步骤2、构造两个结构完全相同的评估神经网络Q(a
t
,s
t

tQ
)、Q

(a
t
,s
t

tQ

)以及两个结构完全相同的动作神经网络μ(s
t


)、μ

(s
t



);其中,ω
tQ
、ω
tQ

、ω

、ω


为t阶段的神经网络的参数;开辟一个维度大小为M
×
(m+2p+1)的经验存储池,该单条经验存储池共可以存储M条经验,每次可存储以(a
t
,s
t
,s
t+1
,R
t
)为构造的单条经验,该单条经验大小为(m+2p+1);同时,该经验存储池可提取N个单条经验用于计算,N≤M,该经验存储池一直保持更新且经验总数小于或等于M;a
t
为t阶段动作向量;s
t
为t阶段状态向量,为t阶段奖励函数;表示t阶段的表示t阶段的表示t阶段的表示t阶段的表示t阶段的V
sum
;V
sum
为所有1≤r≤p的和值,通过t阶段的照度计的值计算得到;t阶段表示可见光光源阵列中所有可调的可见光光源依据神经网络计算出的照度控制参数值改变辐照范围内照度的任一调整过程;
[0009]步骤3、依据神经网络计算照度控制参数值:
[0010]3.1)设置阶段计数变量t=0,将第0阶段状态向量s
t
赋值为全1向量;
[0011]3.2)得到第t阶段的动作向量a
t
=μ(s
t


)+ξ
t
,其中ξ
t
为m维标准高斯噪声的随机采样值;
[0012]3.3)对第t阶段的动作向量a
t
中第k个元素按下式进行变换:
[0013][0014]3.4)将a
t
中第k个元素对应的值作为第L
k
个可见光光源的控制照度强弱的参数值,共得到m个参数值,并将这些参数值实时赋予所有可调的可见光光源,以调整可见光光源阵列的照度;
[0015]3.5)可见光光源的照度调整完毕后,采集所有照度计的值并依照下
式得到并得到第t+1阶段的状态向量
[0016][0017]3.6)若所有照度计的值满足执行步骤3.8;如果不满足,执行步骤3.7;
[0018]3.7)将(a
t
,s
t
,s
t+1
,R
t
)存入经验存储池;从经验存储池提取h个经验用于更新网络;利用深度确定性策略梯度算法中更新critic网络的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的光照度调整方法,用于可见光光源阵列,其特征在于,包括以下步骤:步骤1、所述可见光光源阵列包括n个可见光光源,其中m个可见光光源可通过控制参数调整光照度,用集合Φ={L1,L2,

,L
m
}表示,n≥2,n≥m;第k个可见光光源的照度控制参数值为参数可调范围为参数可调范围为可见光光源阵列辐照范围内放置有p个用于监视并实时反馈照度值的照度计,用集合Γ={Z1,Z2,

,Z
p
}表示,第r个照度计的最终调节值E
Zr
满足步骤2、构造两个结构完全相同的评估神经网络Q(a
t
,s
t

tQ
)、Q

(a
t
,s
t

tQ

)以及两个结构完全相同的动作神经网络μ(s
t


)、μ

(s
t



);其中,ω
tQ
、ω
tQ

、ω

、ω


为t阶段的神经网络的参数;开辟一个维度大小为M
×
(m+2p+1)的经验存储池,该经验存储池共可以存储M条经验,每次可存储以(a
t
,s
t
,s
t+1
,R
t
)为构造的单条经验,该单条经验大小为(m+2p+1);同时,该经验存储池可提取N个单条经验用于计算,N≤M,该经验存储池一直保持更新且经验总数小于或等于M;a
t
为t阶段动作向量;s
t
为t阶段状态向量,为t阶段奖励函数;表示t阶段的表示t阶段的表示t阶段的表示t阶段的表示t阶段的V
sum
;V
sum
为所有1≤r≤p的和值,通过t阶段的照度计的值计算得到;t阶段表示可见光光源阵列中所有可调的可见光光源依据神经网络计算出的照度控制参数值改变辐照范围内照度的任一调整过程;步骤3、依据神经网络计算照度控制参数值:3.1)设置阶段计数变量t=0,将第0阶段状态向...

【专利技术属性】
技术研发人员:郭毅胡炳樑李思远张耿
申请(专利权)人:中国科学院西安光学精密机械研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1