基于深度强化学习的半导体制造Q-time控制方法技术

技术编号:44319905 阅读:25 留言:0更新日期:2025-02-18 20:31
本发明专利技术提供基于深度强化学习的半导体制造Q‑time控制方法,涉及半导体技术领域,包括获取工艺参数、设备状态、工序间等待时间和批次信息,输入到基于双重深度神经网络的深度强化学习模型中,计算Q‑time违规风险度,并选择调度动作;该模型采用包含Q‑time违规惩罚、生产效率奖励、设备利用率奖励和批次平衡奖励的综合奖励函数进行训练;最后,多目标优化决策模块根据实时监控数据和选择的调度动作,综合考虑产能最大化和Q‑time违规最小化生成调度指令,动态调整工序安排。

【技术实现步骤摘要】

本专利技术涉及半导体技术,尤其涉及基于深度强化学习的半导体制造q-time控制方法。


技术介绍

1、传统的调度方法,例如基于规则的方法和基于数学规划的方法,往往难以有效处理半导体制造过程中存在的复杂性和不确定性,例如设备故障、工艺波动和订单变化等。现有的半导体制造调度方法存在以下缺陷和不足:

2、难以适应动态变化:传统的调度方法通常基于预先设定的规则或计划,难以对生产过程中的实时变化(如设备故障、紧急订单等)做出快速响应和调整,导致生产效率降低和交货延迟。

3、缺乏对q-time的有效控制:q-time是指工件在生产过程中允许的最长停留时间。现有的调度方法缺乏对q-time的有效控制,容易导致工件超时,从而影响产品质量和良率。

4、难以实现多目标优化:半导体制造过程中需要考虑多个目标,例如产能最大化、q-time违规最小化、设备利用率最大化等。现有的调度方法 often 难以同时优化多个目标,导致顾此失彼,难以获得全局最优的调度方案。


技术实现思路

1、本专利技术实施例提供本文档来自技高网...

【技术保护点】

1.基于深度强化学习的半导体制造Q-time控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型基于输入的信息构建状态空间,将所述状态空间输入到双重深度神经网络,所述双重深度神经网络的第一神经网络用于估计当前状态值,所述双重深度神经网络的第二神经网络用于预测目标状态值;根据当前状态值和目标状态值的差值计算Q-time违规风险度,并基于所述Q-time违规风险度从预设的动作空间中选择调度动作的步骤包括:

3.根据权利要求2所述的方法,其特征在于,在所述深度强化学习模型预设的批次移动、批次优先级调整、设备切换和批次合并的动作空间...

【技术特征摘要】

1.基于深度强化学习的半导体制造q-time控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型基于输入的信息构建状态空间,将所述状态空间输入到双重深度神经网络,所述双重深度神经网络的第一神经网络用于估计当前状态值,所述双重深度神经网络的第二神经网络用于预测目标状态值;根据当前状态值和目标状态值的差值计算q-time违规风险度,并基于所述q-time违规风险度从预设的动作空间中选择调度动作的步骤包括:

3.根据权利要求2所述的方法,其特征在于,在所述深度强化学习模型预设的批次移动、批次优先级调整、设备切换和批次合并的动作空间中,基于所述当前状态值和所述q-time违规风险度计算候选动作的动作价值函数,所述候选动作包含批次移动、批次优先级调整、设备切换和批次合并中所有可执行的具体动作实例,所述动作价值函数包含即时奖励和风险惩罚,并采用风险度自适应的探索策略从所述动作空间中选择调度动作的步骤包括:

4.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型采用综合奖励函数进行训练,所述综合奖励函数包括q-time违规惩罚项、生产效率...

【专利技术属性】
技术研发人员:张磊黄帅杰冯白羽华鹏飞
申请(专利权)人:北京珂阳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1