一种工艺参数调节动作决策模型的优化方法以及装置制造方法及图纸

技术编号：28477901 阅读：15 留言：0更新日期：2021-05-15 21:47

本申请提供了一种工艺参数调节动作决策模型的优化方法以及装置。所述优化方法包括：获取工艺参数调节动作初始决策模型；通过初始决策模型获取样本数据集，训练专家评判初始网络，得到专家评判模型；使用初始决策模型生成待评判序列，在专家评判模型的模型参数不变的情况下，使用专家评判模型对待评判序列进行判断，得到待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。这样，本申请使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式来更新模型参数，有助于提高决策模型生成工艺参数调整动作的准确度。的准确度。的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种工艺参数调节动作决策模型的优化方法以及装置

[0001]本申请涉及计算机
，尤其是涉及一种工艺参数调节动作决策模型的优化方法以及装置。

技术介绍

[0002]随着工业化的快速推进，我国制造业规模在不断地扩大，在市场环境中，价格因素已经不再是客户衡量需求的首要标准，尤其在家电、汽车、电子等高科技领域的应用中，客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。目前，从产品生产环节的流程来看，工艺参数是影响产品质量的核心因素之一，工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响，因此设置不合理的工艺参数会引发各种各样的加工缺陷，从而影响到产品的质量。通常，在产品的制造过程中，当工艺参数出现缺陷后，常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断，来对工艺参数进行反馈调整。但是，这种方式极度依赖专家的个人的知识和经验积累，并且，不同专家间由于个体认知存在差异，往往也无法得到统一量化的解决方案。
[0003]为了解决上述缺陷，现有技术中可通过实际的操作数据训练模型，例如，收集在不同缺陷的情况下实际工程师的调机操作，形成包括状态和动作的对应关系的数据集。进而可基于获取的数据训练多目标优化的离散动作或者连续动作的模仿学习模型，作为工艺参数推荐的决策模型来在不同的状态下输出不同的动作。然而，上述方式存在下述缺陷：收集的数据可能并非该缺陷情况下的最优解，因此，在最终预测结...

【技术保护点】

【技术特征摘要】
1.一种工艺参数调节动作决策模型的优化方法，其特征在于，所述优化方法包括：获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数调节动作的机器学习模型；通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。2.根据权利要求1所述的优化方法，其特征在于，所述使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型，包括：（A）基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述待评判序列由所述目标产品的状态动作对组成，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；（B）在所述专家评判模型的模型参数不变的情况下，将所述待评判序列输入至所述专家评判模型中，以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果；（C）当所述认可结果指示所述专家评判模型对所述待评判序列不认可时，基于所述认可结果确定所述初始决策模型的损失值，并基于所述损失值更新所述初始决策模型的模型参数，得到更新决策模型，并将所述更新决策模型作为所述初始决策模型，返回执行步骤（A）；（D）当所述认可结果指示所述专家评判模型对所述待评判序列认可时，判断所述待评判序列的序列长度是否满足预设要求；（E）当所述待评判序列的序列长度不满足预设要求时，控制所述初始决策模型重新生成新的样本数据集，使用所述新的样本数据集训练所述专家评判初始网络，得到更新专家评判模型，并调整所述待评判序列的序列长度，得到新的待评判序列，将所述更新专家评判模型作为所述专家评判模型，将所述新的待评判序列作为所述待评判序列，返回执行步骤（B）；（F）当所述待评判序列的序列长度满足预设要求时，将当前的初始决策模型确定为工艺参数调节动作目标决策模型。3.根据权利要求2所述的优化方法，其特征在于，所述调整所述待评判序列的序列长度，包括：确定所述待评判序列中最后一个状态动作对中的工艺参数调节动作；基于所述工艺参数调节动作，确定出与所述工艺参数调节动作对应时刻的下一时刻的工艺状态；将所述下一时刻的工艺状态输入至所述初始决策模型中，确定出所述下一时刻的工艺参数调节动作；
基于所述下一时刻的工艺状态和...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：北京瑞莱智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人