一种基于深度强化学习的单晶炉智能控制方法及装置制造方法及图纸

技术编号:35296702 阅读:23 留言:0更新日期:2022-10-22 12:44
本发明专利技术公开一种基于深度强化学习的单晶炉智能控制方法及装置,该方法包括:步骤1,构建深度强化学习网络;步骤2,将单晶炉各种状态信息和状态下动作的量化奖励输入构建的深度强化学习网络中,训练深度强化学习模型;步骤3,向训练好的深度强化学习模型中输入实时采集的单晶炉内部生产状态图像,获得最优设备控制动作;步骤4,根据最优设备控制动作智能控制单晶炉生产。本发明专利技术通过使用强化学习的方法,将单晶硅的一个生产流程看做一次强化学习决策,将单晶硅的生产质量作为决策奖励,把单晶炉内的视觉图像作为状态,训练出不同状态下的最优单晶炉控制动作,可以大大降低单晶硅生产的人力成本,减小经验误差。减小经验误差。减小经验误差。

【技术实现步骤摘要】
一种基于深度强化学习的单晶炉智能控制方法及装置


[0001]本专利技术涉及智能控制
,尤其涉及一种基于深度强化学习的单晶炉智能控制方法及装置。

技术介绍

[0002]单晶硅是单质硅的一种,广泛应用于太阳能电池领域,通常情况下由多晶硅转变而成。当前,传统的直拉单晶硅的生产工艺主要通过人工观察单晶硅生产状态来调节单晶炉内部各项环境指标,如单晶炉功率、单晶硅直拉速度等,效率较低,人工误差大,受工人经验因素影响大。

技术实现思路

[0003]本专利技术针对现有单晶硅制作方法存在的人工误差大,受工人经验因素影响大的问题,提出一种基于深度强化学习的单晶炉智能控制方法及装置。
[0004]为了实现上述目的,本专利技术采用以下技术方案:
[0005]本专利技术一方面提出一种基于深度强化学习的单晶炉智能控制方法,包括:
[0006]步骤1,构建深度强化学习网络;
[0007]步骤2,将单晶炉内部生产状态图像和状态下动作的量化奖励输入构建的深度强化学习网络中,训练深度强化学习模型;
[0008]步骤3,向训练好的深度强化学习模型中输入实时采集的单晶炉内部生产状态图像,获得最优设备控制动作;
[0009]步骤4,根据最优设备控制动作智能控制单晶炉生产。
[0010]进一步地,所述深度强化学习网络包括AC、A2C、A3C、DQN。
[0011]进一步地,当深度强化学习网络为A3C神经网络时,所述步骤2包括:
[0012]步骤2.1,更新时间序列t=1;
[0013]步骤2.2,重置Actor和Critic的梯度更新量:dθ

0,dω

0;其中θ,ω为A3C神经网络结构公共部分对应参数;
[0014]步骤2.3,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ'

θ,ω'

ω;其中θ

,ω

为本线程的A3C神经网络结构对应参数;
[0015]步骤2.4,令迭代开始时间t
start
=t,初始化状态s
t

[0016]步骤2.5,基于策略π(a
t
|s
t
;θ)选择出动作a
t

[0017]步骤2.6,执行动作a
t
得到奖励r
t
和新状态s
t+1

[0018]步骤2.7,令t

t=1,T

T+1;其中T表示全局共享的迭代轮数;
[0019]步骤2.8,如果s
t
是终止状态,或t

t
start
==t
max
,执行步骤2.9,否则执行步骤2.5;其中t
max
表示单次迭代最大时长;
[0020]步骤2.9,计算最后一个时间序列位置对应状态的价值函数Q(s,t):
[0021][0022]其中s代表输入状态,V代表输出状态价值;
[0023]步骤2.10,对时间序列{t

1,...,t
start
}中的每一步i:
[0024]计算每个时刻的Q(s,i):
[0025]Q(s,i)=r
i
+γQ(s,i+1);
[0026]其中γ表示衰减因子;
[0027]累计Actor的本地梯度更新:
[0028][0029]其中c表示熵系数;H(π(s
i


))表示策略π(s
i


)的熵;
[0030]累计Critic的本地梯度更新:
[0031][0032]步骤2.11,更新全局神经网络的模型参数:
[0033]θ=θ

αdθ,ω=ω

βdω;
[0034]其中α,β表示步长;
[0035]步骤2.12,如果T>T
max
则迭代过程结束,输出公共部分的A3C神经网络参数θ,ω,否则执行步骤2.3;其中T
max
表示全局最大迭代次数。
[0036]本专利技术另一方面提出一种基于深度强化学习的单晶炉智能控制装置,包括:
[0037]深度强化学习网络构建模块,用于构建深度强化学习网络;
[0038]深度强化学习模型训练模块,用于将单晶炉内部生产状态图像和状态下动作的量化奖励输入构建的深度强化学习网络中,训练深度强化学习模型;
[0039]控制动作获得模块,用于向训练好的深度强化学习模型中输入实时采集的单晶炉内部生产状态图像,获得最优设备控制动作;
[0040]单晶炉智能控制模块,用于根据最优设备控制动作智能控制单晶炉生产。
[0041]进一步地,所述深度强化学习网络包括AC、A2C、A3C、DQN。
[0042]进一步地,当深度强化学习网络为A3C神经网络时,所述深度强化学习模型训练模块具体用于:
[0043]步骤2.1,更新时间序列t=1;
[0044]步骤2.2,重置Actor和Critic的梯度更新量:dθ

0,dω

0;其中θ,ω为A3C神经网络结构公共部分对应参数;
[0045]步骤2.3,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ'

θ,ω'

ω;其中θ

,ω

为本线程的A3C神经网络结构对应参数;
[0046]步骤2.4,令迭代开始时间t
start
=t,初始化状态s
t

[0047]步骤2.5,基于策略π(a
t
|s
t
;θ)选择出动作a
t

[0048]步骤2.6,执行动作a
t
得到奖励r
t
和新状态s
t+1

[0049]步骤2.7,令t

t=1,T

T+1;其中T表示全局共享的迭代轮数;
[0050]步骤2.8,如果s
t
是终止状态,或t

t
start
==t
max
,执行步骤2.9,否则执行步骤2.5;其中t
max
表示单次迭代最大时长;
[0051]步骤2.9,计算最后一个时间序列位置对应状态的价值函数Q(s,t):
[0052][0053]其中s代表输入状态,V代表输出状态价值;
[0054]步骤2.10,对时间序列{t

1,...,t...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的单晶炉智能控制方法,其特征在于,包括:步骤1,构建深度强化学习网络;步骤2,将单晶炉内部生产状态图像和状态下动作的量化奖励输入构建的深度强化学习网络中,训练深度强化学习模型;步骤3,向训练好的深度强化学习模型中输入实时采集的单晶炉内部生产状态图像,获得最优设备控制动作;步骤4,根据最优设备控制动作智能控制单晶炉生产。2.根据权利要求1所述的一种基于深度强化学习的单晶炉智能控制方法,其特征在于,所述深度强化学习网络包括AC、A2C、A3C、DQN。3.根据权利要求2所述的一种基于深度强化学习的单晶炉智能控制方法,其特征在于,当深度强化学习网络为A3C神经网络时,所述步骤2包括:步骤2.1,更新时间序列t=1;步骤2.2,重置Actor和Critic的梯度更新量:dθ

0,dω

0;其中θ,ω为A3C神经网络结构公共部分对应参数;步骤2.3,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ'

θ,ω'

ω;其中θ

,ω

为本线程的A3C神经网络结构对应参数;步骤2.4,令迭代开始时间t
start
=t,初始化状态s
t
;步骤2.5,基于策略π(a
t
|s
t
;θ)选择出动作a
t
;步骤2.6,执行动作a
t
得到奖励r
t
和新状态s
t+1
;步骤2.7,令t

t=1,T

T+1;其中T表示全局共享的迭代轮数;步骤2.8,如果s
t
是终止状态,或t

t
start
==t
max
,执行步骤2.9,否则执行步骤2.5;其中t
max
表示单次迭代最大时长;步骤2.9,计算最后一个时间序列位置对应状态的价值函数Q(s,t):其中s代表输入状态,V代表输出状态价值;步骤2.10,对时间序列{t

1,...,t
start
}中的每一步i:计算每个时刻的Q(s,i):Q(s,i)=r
i
+γQ(s,i+1);其中γ表示衰减因子;累计Actor的本地梯度更新:其中c表示熵系数;H(π(s
i


))表示策略π(s
i


)的熵;累计Critic的本地梯度更新:步骤2.11,更新全局神经网络的模型参数:
θ=θ

αdθ,ω=ω

βdω;其中α,β表示步长;步骤2.12,如果T>T
max
则迭代过程结束,输出公共部分的A3C神经网络参数θ,ω,否则执行步骤2.3;其中T
max
表示全局最大迭代次数。4.一种基于深度强化学习的单晶炉智能控制装置,其特征在...

【专利技术属性】
技术研发人员:闫镔杨杰乔凯陈健石舒豪杨帅蔡爱龙宋宝杰马德魁
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1