一种工艺参数调节动作决策模型的优化方法以及装置制造方法及图纸

技术编号:28477901 阅读:15 留言:0更新日期:2021-05-15 21:47
本申请提供了一种工艺参数调节动作决策模型的优化方法以及装置。所述优化方法包括:获取工艺参数调节动作初始决策模型;通过初始决策模型获取样本数据集,训练专家评判初始网络,得到专家评判模型;使用初始决策模型生成待评判序列,在专家评判模型的模型参数不变的情况下,使用专家评判模型对待评判序列进行判断,得到待评判序列的认可结果,基于所述认可结果,更新所述初始决策模型的模型参数,得到工艺参数调节动作目标决策模型。这样,本申请使用专家评判模型对决策模型的模型参数进行优化,并且采用渐进式的确认方式来更新模型参数,有助于提高决策模型生成工艺参数调整动作的准确度。的准确度。的准确度。

【技术实现步骤摘要】
一种工艺参数调节动作决策模型的优化方法以及装置


[0001]本申请涉及计算机
,尤其是涉及一种工艺参数调节动作决策模型的优化方法以及装置。

技术介绍

[0002]随着工业化的快速推进,我国制造业规模在不断地扩大,在市场环境中,价格因素已经不再是客户衡量需求的首要标准,尤其在家电、汽车、电子等高科技领域的应用中,客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。目前,从产品生产环节的流程来看,工艺参数是影响产品质量的核心因素之一,工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响,因此设置不合理的工艺参数会引发各种各样的加工缺陷,从而影响到产品的质量。通常,在产品的制造过程中,当工艺参数出现缺陷后,常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断,来对工艺参数进行反馈调整。但是,这种方式极度依赖专家的个人的知识和经验积累,并且,不同专家间由于个体认知存在差异,往往也无法得到统一量化的解决方案。
[0003]为了解决上述缺陷,现有技术中可通过实际的操作数据训练模型,例如,收集在不同缺陷的情况下实际工程师的调机操作,形成包括状态和动作的对应关系的数据集。进而可基于获取的数据训练多目标优化的离散动作或者连续动作的模仿学习模型,作为工艺参数推荐的决策模型来在不同的状态下输出不同的动作。然而,上述方式存在下述缺陷:收集的数据可能并非该缺陷情况下的最优解,因此,在最终预测结果的准确性具有局限性,此次,为了保证决策模型能够达到较为精确的工艺参数推荐功能,需要人工筛选出效果更好的数据样本,或者设计一种计算方法来衡量操作的有效性,进而通过阈值来筛选有效的数据样本进行模型再学习,这种方式还导致了人工时间的大量浪费。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种工艺参数调节动作决策模型的优化方法以及装置,使用专家评判模型对决策模型的模型参数进行优化,并且采用渐进式的确认方式,更新模型参数,从而有助于提高生成的目标决策模型的可靠性以及生成的工艺参数调节动作的准确度,进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。
[0005]本申请实施例提供了一种工艺参数调节动作决策模型的优化方法,所述优化方法包括:获取工艺参数调节动作初始决策模型,其中,所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数调节动作的机器学习模型;通过所述初始决策模型获取样本数据集,构建专家评判初始网络,并使用所述样本数据集来训练所述专家评判初始网络,以得到专家评判模型;使用所述初始决策模型生成待评判序列,在所述专家评判模型的模型参数不变的
情况下,使用所述专家评判模型对所述待评判序列进行判断,得到所述待评判序列的认可结果,基于所述认可结果,更新所述初始决策模型的模型参数,得到工艺参数调节动作目标决策模型。
[0006]进一步的,所述使用所述初始决策模型生成待评判序列,在所述专家评判模型的模型参数不变的情况下,使用所述专家评判模型对所述待评判序列进行判断,得到所述待评判序列的认可结果,基于所述认可结果,更新所述初始决策模型的模型参数,得到工艺参数调节动作目标决策模型,包括:(A)基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列,其中,所述待评判序列由所述目标产品的状态动作对组成,所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作;(B)在所述专家评判模型的模型参数不变的情况下,将所述待评判序列输入至所述专家评判模型中,以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果;(C)当所述认可结果指示所述专家评判模型对所述待评判序列不认可时,基于所述认可结果确定所述初始决策模型的损失值,并基于所述损失值更新所述初始决策模型的模型参数,得到更新决策模型,并将所述更新决策模型作为所述初始决策模型,返回执行步骤(A);(D)当所述认可结果指示所述专家评判模型对所述待评判序列认可时,判断所述待评判序列的序列长度是否满足预设要求;(E)当所述待评判序列的序列长度不满足预设要求时,控制所述初始决策模型重新生成新的样本数据集,使用所述新的样本数据集训练所述专家评判初始网络,得到更新专家评判模型,并调整所述待评判序列的序列长度,得到新的待评判序列,将所述更新专家评判模型作为所述专家评判模型,将所述新的待评判序列作为所述待评判序列,返回执行步骤(B);(F)当所述待评判序列的序列长度满足预设要求时,将当前的初始决策模型确定为工艺参数调节动作目标决策模型。
[0007]进一步的,所述调整所述待评判序列的序列长度,包括:确定所述待评判序列中最后一个状态动作对中的工艺参数调节动作;基于所述工艺参数调节动作,确定出与所述工艺参数调节动作对应时刻的下一时刻的工艺状态;将所述下一时刻的工艺状态输入至所述初始决策模型中,确定出所述下一时刻的工艺参数调节动作;基于所述下一时刻的工艺状态和所述下一时刻的工艺参数调节动作确定出下一时刻的状态动作对,并将所述下一时刻的状态动作对增加到所述待评判序列中,以完成对所述待评判序列的序列长度的调整。
[0008]进一步的,在使用所述初始决策模型生成待评判序列时,第一次生成的所述待评判序列中包含一个状态动作对。
[0009]进一步的,通过以下步骤生成所述工艺参数调节动作初始决策模型:获取历史工艺状态以及与历史工艺状态对应的历史工艺参数调节动作,构建生成
初始决策模型的训练样本数据集;采用模仿学习的训练方式,使用所述训练样本数据集训练预先构建好的初始决策神经网络,生成所述工艺参数调节动作初始决策模型。
[0010]进一步的,所述通过所述初始决策模型获取样本数据集,包括:获取所述目标产品在生产过程中的预定时间段内的工艺状态,将所述工艺状态输入所述初始决策模型,以获得目标产品在所述预定时间段内不同时间点的工艺状态与工艺参数调节动作的状态动作对;基于所述状态动作对产生工艺参数的推断序列;获取所述工艺参数的推断序列的专家打标结果,以得到推断序列的专家认可标签;基于所述推断序列和所对应的专家认可标签,得到样本数据集。
[0011]进一步的,在得到工艺参数调节动作目标决策模型之后,所述优化方法还包括:获取所述目标产品的待处理工艺状态;将所述待处理工艺状态输入至所述目标决策模型,所述目标决策模型生成对应于所述待处理工艺状态的工艺参数调节动作。
[0012]本申请实施例还提供了一种工艺参数调节动作决策模型的优化装置,所述优化装置包括:获取模块,用于获取工艺参数调节动作初始决策模型,其中,所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型;专家评判模型确定模块,用于通过所述初始决策模型获取样本数据集,构建专家评判初始网络,并使用所述样本数据集来训练所述专家评判初始网络,以得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工艺参数调节动作决策模型的优化方法,其特征在于,所述优化方法包括:获取工艺参数调节动作初始决策模型,其中,所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数调节动作的机器学习模型;通过所述初始决策模型获取样本数据集,构建专家评判初始网络,并使用所述样本数据集来训练所述专家评判初始网络,以得到专家评判模型;使用所述初始决策模型生成待评判序列,在所述专家评判模型的模型参数不变的情况下,使用所述专家评判模型对所述待评判序列进行判断,得到所述待评判序列的认可结果,基于所述认可结果,更新所述初始决策模型的模型参数,得到工艺参数调节动作目标决策模型。2.根据权利要求1所述的优化方法,其特征在于,所述使用所述初始决策模型生成待评判序列,在所述专家评判模型的模型参数不变的情况下,使用所述专家评判模型对所述待评判序列进行判断,得到所述待评判序列的认可结果,基于所述认可结果,更新所述初始决策模型的模型参数,得到工艺参数调节动作目标决策模型,包括:(A)基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列,其中,所述待评判序列由所述目标产品的状态动作对组成,所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作;(B)在所述专家评判模型的模型参数不变的情况下,将所述待评判序列输入至所述专家评判模型中,以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果;(C)当所述认可结果指示所述专家评判模型对所述待评判序列不认可时,基于所述认可结果确定所述初始决策模型的损失值,并基于所述损失值更新所述初始决策模型的模型参数,得到更新决策模型,并将所述更新决策模型作为所述初始决策模型,返回执行步骤(A);(D)当所述认可结果指示所述专家评判模型对所述待评判序列认可时,判断所述待评判序列的序列长度是否满足预设要求;(E)当所述待评判序列的序列长度不满足预设要求时,控制所述初始决策模型重新生成新的样本数据集,使用所述新的样本数据集训练所述专家评判初始网络,得到更新专家评判模型,并调整所述待评判序列的序列长度,得到新的待评判序列,将所述更新专家评判模型作为所述专家评判模型,将所述新的待评判序列作为所述待评判序列,返回执行步骤(B);(F)当所述待评判序列的序列长度满足预设要求时,将当前的初始决策模型确定为工艺参数调节动作目标决策模型。3.根据权利要求2所述的优化方法,其特征在于,所述调整所述待评判序列的序列长度,包括:确定所述待评判序列中最后一个状态动作对中的工艺参数调节动作;基于所述工艺参数调节动作,确定出与所述工艺参数调节动作对应时刻的下一时刻的工艺状态;将所述下一时刻的工艺状态输入至所述初始决策模型中,确定出所述下一时刻的工艺参数调节动作;
基于所述下一时刻的工艺状态和...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1