System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于机械零件加工工艺规划领域,更具体地,涉及一种工艺规划中工艺步骤推荐模型的构建方法及其应用。
技术介绍
1、工艺规划的目标是为零件制定一个可行的、最优的或接近最优的工序序列方案,并合理配置制造资源,以便零件可以经济地和有竞争力地制造。现有的工艺规划系统通常分为生成式和派生式。知识图谱可以揭示多种形态的复杂工艺知识的显性和隐性关系,成为解决工艺规划问题的研究热点。
2、在中国专利技术专利说明书cn116976603a中公开了一种生成式工艺规划方法,通过识别零部件加工特征,获得特征加工链,设计序列选择超启发式算法,设定优化目标为最小化最大加工时间,并充分考虑多种约束条件,得到零件工艺规划结果。
3、在中国专利技术专利说明书cn114781641a中公开了一种派生式工艺规划方法,利用知识图谱表示学习技术,为知识图谱中每个实体和关系学习一个向量表示,以多属性相似度计算加工特征实体的相似性,进一步完成对历史加工链信息的重用。
4、在生成式工艺规划方法中,对知识的利用仅仅考虑了局部信息,忽视了全局的知识和经验,不利于推荐结果的准确性;包括使用知识图谱在内的派生式方法对知识的应用,主要集中在通过关键字、模型或描述符进行检索,解空间可能受限,这可能导致无法涵盖更广泛的可能性和变化,从而限制了工艺规划的创新性和灵活性。
技术实现思路
1、针对现有技术的缺陷和改进需求,本专利技术提供了一种工艺规划中工艺步骤推荐模型的构建方法及其应用,其目的在于提高工艺规
2、为实现上述目的,按照本专利技术的一个方面,提供了一种工艺规划中工艺步骤推荐模型的构建方法,包括:
3、将零件特征、工装资源和工序信息分别作为待构建知识图谱中的实体种类,并确定实体之间的关系种类,构建知识图谱模式层;采集预设的各实体种类对应的实体数据并导入所述知识图谱模式层,构建知识图谱数据层,得到工艺过程知识图谱;获取所述知识图谱中的所有三元组样本,训练得到每个三元组实体的嵌入;
4、采用深度强化学习方式,构建并基于训练样本集,训练策略网络,得到工艺步骤推荐模型;
5、其中,每个训练样本的生成方式为:对已选择各工序步骤在知识图谱中对应的实体的嵌入进行上下文信息聚合,得到上下文信息嵌入;从所述上下文信息嵌入中提取对待推荐工序步骤有指向作用的特征,作为工序步骤潜在关系嵌入;将上下文信息嵌入和工序步骤潜在关系嵌入融合,作为知识状态向量;根据当前已选择各工序步骤之间的位次信息,生成顺次偏好状态向量;将所述知识状态向量和所述顺次偏好状态向量融合,得到状态向量,作为一个训练样本,其标签为设定的下一工序步骤。
6、进一步,所述采用深度强化学习方式训练得到工艺步骤推荐模型的实现方式为:
7、将深度强化学习中的策略网络作为演员网络,其输入为训练样本,输出为由各可供选择的工序步骤被推荐概率所组成的概率向量,用于选择下一时刻最合适的工序步骤;对策略网络的输出改为最大概率被推荐的工序步骤的打分值,所得网络作为评论家网络,其输入为训练样本和当前次迭代演员网络所输出的下一时刻最合适的工序步骤,用于对所述下一时刻最合适的工序步骤进行打分并输出打分值;
8、根据演员网络在当前次迭代后所得到的下一时刻最合适的工序步骤及其对应的标签,计算奖励值rt;根据所述奖励值rt和评论家网络在当前次迭代后所输出的打分值vt,计算残差td=rt+γ·vt-vt-1;计算演员网络在当前次迭代后的损失函数lossactor=-td·logπ(pt+1∣st),式中,π(pt+1∣st)表示演员网络在当前次迭代中所输入的样本st下选中pt+1的概率,pt+1表示演员网络在当前次迭代后所选中的下一时刻t+1最合适的工序步骤;计算评论家网络在当前迭代后的损失函数losscritic=td2;γ表示系数;
9、根据损失函数更新演员网络和评论家网络的参数;并将当前次迭代后演员网络所选中的下一时刻t+1最合适的工序步骤添加到已选择各工序步骤中以更新训练样本,重复上述过程,直至达到终止条件,最终得到的演员网络,即作为推荐指数较高的工序步骤推荐模型。
10、进一步,所述奖励值rt为命中性奖励函数和相关性奖励函数的加和;
11、其中,所述命中性奖励函数为:
12、
13、所述相关性奖励函数采用余弦相似度表示,如下:
14、
15、式中,表示pt+1的标签,zt+1表示pt+1在所述工艺过程知识图谱中所对应实体的嵌入,表示zt+1的标签。
16、进一步,采用拼接的方式对所述上下文信息嵌入和所述潜在关系嵌入进行融合。
17、进一步,采用拼接的方式对所述知识状态向量和所述顺次偏好状态向量进行融合。
18、进一步,采用平均池化的方式,对当前已选择各工序步骤在知识图谱中对应的实体的嵌入进行上下文信息聚合。
19、进一步,采用多层感知器,从所述上下文信息嵌入中感知提取对待推荐工序步骤有指向作用的特征。
20、进一步,采用gru网络,根据当前已选择各工序步骤在知识图谱中对应的实体的数据,推导得到工艺规划的顺次偏好状态向量。
21、本专利技术还提供一种工艺规划方法,包括:
22、s1、基于当前已选择各工序步骤,采用如上所述的构建方法中训练样本的生成方式,生成相应的状态向量;
23、s2、获取如上所述的构建方法所构建得到的工序步骤推荐模型和工艺过程知识图谱,将s1得到的状态向量输入所述工序步骤推荐模型,得到下一个工序步骤,并从所述工艺过程知识图谱中获取相应实体的数据;重复执行s1,直至完成工艺规划。
24、本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种知识图谱引导的深度强化学习工艺规划方法和/或如上所述的一种工艺规划方法。
25、总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:
26、(1)本专利技术提供一种工艺规划中工艺步骤推荐模型的构建方法,该方法结合知识图谱和深度强化学习,挖掘工艺知识图谱的学习潜力,充分利用工序决策顺序和工序间上下文关系等信息,构建状态向量,作为训练样本,状态向量能够描述工序知识的属性细节和潜在关系;之后,采用深度强化学习的方式训练,得到更具灵活性且具有较高准确性工艺规划结果的推荐模型,该模型具有在利用历史序列信息的基础上,进一步增强了外部知识信息的能量,因此有望在工序推荐方面具有更具有效性、准确性和可解释性。
27、(2)本专利技术还提出优选演员-评论家模型来执行深度强化学习,其相对其他深度强化学习模型,采用演员-评论家模型可以提高模型训练的效率,并且可以提高训练过程中的模型稳定性。
本文档来自技高网...【技术保护点】
1.一种工艺规划中工艺步骤推荐模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的构建方法,其特征在于,所述采用深度强化学习方式训练得到工艺步骤推荐模型的实现方式为:
3.根据权利要求2所述的构建方法,其特征在于,所述奖励值rt为命中性奖励函数rt1和相关性奖励函数rt2的加和;
4.根据权利要求1所述的构建方法,其特征在于,采用拼接的方式对所述上下文信息嵌入和所述潜在关系嵌入进行融合。
5.根据权利要求1所述的构建方法,其特征在于,采用拼接的方式对所述知识状态向量和所述顺次偏好状态向量进行融合。
6.根据权利要求1所述的构建方法,其特征在于,采用平均池化的方式,对当前已选择各工序步骤在知识图谱中对应的实体的嵌入进行上下文信息聚合。
7.根据权利要求1所述的构建方法,其特征在于,采用多层感知器,从所述上下文信息嵌入中感知提取对待推荐工序步骤有指向作用的特征。
8.根据权利要求1所述的构建方法,其特征在于,采用GRU网络,根据当前已选择各工序步骤在知识图谱中对应的实体的数据,推导得到工艺规划
9.一种工艺规划方法,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至8任一项所述的一种知识图谱引导的深度强化学习工艺规划方法和/或如权利要求9所述的一种工艺规划方法。
...【技术特征摘要】
1.一种工艺规划中工艺步骤推荐模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的构建方法,其特征在于,所述采用深度强化学习方式训练得到工艺步骤推荐模型的实现方式为:
3.根据权利要求2所述的构建方法,其特征在于,所述奖励值rt为命中性奖励函数rt1和相关性奖励函数rt2的加和;
4.根据权利要求1所述的构建方法,其特征在于,采用拼接的方式对所述上下文信息嵌入和所述潜在关系嵌入进行融合。
5.根据权利要求1所述的构建方法,其特征在于,采用拼接的方式对所述知识状态向量和所述顺次偏好状态向量进行融合。
6.根据权利要求1所述的构建方法,其特征在于,采用平均池化的方式,对当前已选择各工序步骤在知识图谱中...
【专利技术属性】
技术研发人员:彭义兵,张丽君,吴泓晋,陈烨林,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。