一种工艺参数的调节策略决策模型的确定方法及装置制造方法及图纸

技术编号：28943942 阅读：27 留言：0更新日期：2021-06-18 21:53

本申请提供了一种工艺参数的调节策略决策模型的确定方法及装置，该确定方法包括：通过专家经验决策模型和工艺参数的调节策略初始决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数、待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量；确定在目标产品的当前工艺状态下待调节工艺参数的决策动作的外部奖励值和内部奖励值；基于内部奖励值和外部奖励值，确定待调节工艺参数的决策动作的动作价值；基于动作价值优化调节策略初始决策模型，得到工艺参数的调节策略决策模型。根据所述确定方法及装置，有助于提高生成的待调节工艺参数的决策动作的准确度，提高调节策略决策模型的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种工艺参数的调节策略决策模型的确定方法及装置
本申请涉及信息处理领域，具体而言，涉及一种工艺参数的调节策略决策模型的确定方法及装置。
技术介绍
随着工业化的快速推进，我国制造业规模在不断地扩大，在市场环境中，价格因素已经不再是客户衡量需求的首要标准，尤其在家电、汽车、电子等高科技领域的应用中，客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。目前，从产品生产环节的流程来看，工艺参数是影响产品质量的核心因素之一，工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响，因此设置不合理的工艺参数会引发各种各样的加工缺陷，从而影响到产品的质量。通常，在产品的制造过程中，当工艺参数出现缺陷后，常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断，生成待调节工艺参数的调节策略来对工艺参数进行反馈调整。但是，这种方式极度依赖专家的个人的知识和经验积累，并且，不同专家间由于个体认知存在差异，往往...

【技术保护点】
1.一种工艺参数的调节策略决策模型的确定方法，其特征在于，所述确定方法包括：/n通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和所述待调节工艺参数的决策动作；/n通过工艺参数的调节策略初始决策模型，确定所述待调节工艺参数的决策动作的调节量；/n根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；/n基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；/n基于所述内部奖励值和外部奖励值，计算所述待调节工艺参数...

【技术特征摘要】
1.一种工艺参数的调节策略决策模型的确定方法，其特征在于，所述确定方法包括：
通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和所述待调节工艺参数的决策动作；
通过工艺参数的调节策略初始决策模型，确定所述待调节工艺参数的决策动作的调节量；
根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；
基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；
基于所述内部奖励值和外部奖励值，计算所述待调节工艺参数的决策动作的综合奖励值；
基于所述待调节工艺参数的决策动作的综合奖励值与折损系数确定所述待调节工艺参数的决策动作的动作价值；
基于所述待调节工艺参数的决策动作的动作价值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型。

2.根据权利要求1所述的确定方法，其特征在于，所述基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：
通过所述专家经验决策模型，获取所述待调节工艺参数在当前工艺状态下的重要度权重；
获取所述待调节工艺参数的决策动作的内部奖励函数；
根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值。

3.根据权利要求2所述的确定方法，其特征在于，所述根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：
针对每个待调节工艺参数，将该待调节工艺参数的决策动作的内部奖励函数和与该待调节工艺参数在当前工艺状态下的重要度权重相乘，得到该待调节工艺参数的决策动作的内部奖励子函数；
将该待调节工艺参数的决策动作的调节量代入该待调节工艺参数的决策动作的内部奖励子函数，得到该待调节工艺参数的决策动作的内部奖励值；
将所有待调节工艺参数的决策动作的内部奖励值求和，得到所述待调节工艺参数的决策动作的内部奖励值。

4.根据权利要求1所述的确定方法，其特征在于，所述基于所述待调节工艺参数的决策动作的动作价值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型，包括：
基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型。

5.根据权利要求4所述的确定方法，其特征在于，所述基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型，包括：
获取历史待调节工艺参数的决策动作和所述决策动作的调节量；
获取历...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：北京瑞莱智慧科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人