管理装置、光刻装置、管理方法、以及物品制造方法制造方法及图纸

技术编号：36704419 阅读：18 留言：0更新日期：2023-03-01 09:24

管理装置包括学习设备。所述学习设备被配置为在从被配置为使用参数值通过强化学习来决定的神经网络对受控制的对象进行控制的控制器对所述受控制的对象的控制结果获得的奖励不满足预定的标准的情况下，通过强化学习来重新决定所述参数值。重新决定所述参数值。重新决定所述参数值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】管理装置、光刻装置、管理方法、以及物品制造方法

[0001]本专利技术涉及管理装置、光刻装置、管理方法、以及物品制造方法。

技术介绍

[0002]日本专利特开No.2009
‑
205641描述了包括迭代学习控制电路的位置控制装置。该位置控制装置包括检测受控制的对象的位置的检测设备、生成通过从目标值减去检测设备的输出而获得的误差的减法设备、包括向其输入误差的滤波器的迭代学习控制电路、以及用于计算受控制的对象的参数变化的计算部件。滤波器的特性根据受控制的对象的参数变化而改变。
[0003]使用神经网络的控制装置可以通过执行强化学习来决定神经网络的参数值。然而，由于受控制的对象的状态可以随时间改变，因此即使在给定时间最优化的神经网络也不再是最优的，因为受控制的对象的状态此后已改变。因此，控制装置的控制准确度可能由于受控制的对象的状态的改变而劣化。

技术实现思路

[0004]本专利技术提供了在抑制由受控制的对象的状态的改变引起的控制准确度的劣化上有利的技术。
[0005]本专利技术的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种管理装置，其特征在于，包括：学习设备，所述学习设备被配置为在从被配置为使用参数值通过强化学习来决定的神经网络对受控制的对象进行控制的控制器对所述受控制的对象的控制结果获得的奖励不满足预定的标准的情况下，通过强化学习来重新决定所述参数值。2.根据权利要求1所述的管理装置，其特征在于，所述受控制的对象包括被配置为保持处理目标对象的保持器，在执行对所述处理目标对象的处理的处理序列中，所述控制器控制所述保持器以便移动所述保持器，并且在从所述处理序列中所述控制器对所述保持器的控制结果获得的奖励不满足所述预定的标准的情况下，所述学习设备通过强化学习来重新决定所述参数值。3.根据权利要求2所述的管理装置，其特征在于，所述处理序列包括多个子序列，所述预定的标准包括各自与所述多个子序列中的每一个对应的多个标准，并且在从所述多个子序列中的每一个中所述控制器对所述保持器的控制结果获得的奖励不满足所述多个标准当中的对应标准的情况下，所述学习设备通过强化学习来重新决定所述参数值。4.根据权利要求3所述的管理装置，其特征在于，所述处理序列是用于将原件的图案转印到基板的序列，并且所述多个子序列包括传送所述基板的传送序列、测量所述基板与所述原件之间的对准误差的测量序列、以及将所述原件的图案投影到所述基板上并且曝光所述基板的曝光序列。5.根据权利要求4所述的管理装置，其特征在于，在所述多个标准当中，与所述传送序列对应的标准与所述保持器的控制误差收敛到预定值或更小所需的时间相关。6.根据权利要求4或5所述的管理装置，其特征在于，在所述多个标准当中，与所述测量序列对应的标准与在所述基板与所述原件之间的对准误差的测量期间所述保持器的控制误差相关。7.根据权利要求4至6中的任一项所述的管理装置，其特征在于，在所述多个标准当中，与所述曝光序列对应的标准与在所述基板的曝光期间所述基板与所述原件之间的同步误差相关。8.根据权利要求2至7中的任一项所述的管理装置，其特征在于，所述学习设备在所述处理序列结束之后通过强化学习来重新决定所述参数值。9.根据权利要求1所述的管理装置，其特征在于，所述受控制的对象包括被配置为保持处理目标对象的保持器，在执行对所述处理目标对象的处理的处理序列不被执行的时段中，所述控制器控制所述保持器以便移动所述保持器，并且在从所述时段中所述控制器对所述保持器的控制结果获得的奖励不满足所述预定的标准的情况下，所述学习设备通过强化学习来重新决定所述参数值。10.根据权利要求1至4中的任一项所述的管理装置，其特征在于，
所述控制器对所述受控制的对象的位置进行控制。11.根据权利要求1至10中的任一项所述的管理装置，其特征在于，所述控制器包括第一补偿器、第二补偿器、以及加法器，所述第一补偿器被配置为基于控制误差生成第一命令值，所述第二补偿器被配置为基...

【专利技术属性】
技术研发人员：伊藤觉，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人