当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度强化学习的工艺路线多目标优化方法技术

技术编号:34844136 阅读:69 留言:0更新日期:2022-09-08 07:42
本发明专利技术涉及一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体Agent可实现的随机性策略与回报:将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;第三步,基于Actor

【技术实现步骤摘要】
一种基于深度强化学习的工艺路线多目标优化方法


[0001]本专利技术属于工艺路线优化
,具体地说是一种基于深度强化学习的工艺路线多目标优化方法。

技术介绍

[0002]信息时代下,产品需求愈加趋于个性化、多样化、动态化,基于用户需求的小批量定制产品市场份额逐步上升,然而现有的制造体系却很难满足这种小批量定制产品的生产需要。究其原因是定制产品在结构设计上更新频繁,同时需求变更导致工艺上的细微改动都会影响整体工艺路线的拟定,这便对工艺规划效率提出了全新的挑战,且现阶段企业对工艺资源的组织能力弱,工艺路线大多采用人工拟定,对经验依赖性强,工艺设计过程中表现出的智能化水平较低。
[0003]工艺规划可以视为连接产品设计与制造的桥梁,是在车间或工厂制造资源的限制下,将制造工艺知识与具体设计相结合准备其具体操作说明的活动。工艺路线优化是工艺规划的核心环节,其主要指在满足工艺中工序的约束关系下,通过合理配置加工资源、安排加工顺序以实现经济效益的最大化,由于涉及到多目标优化,故其也被证明为一类具有NP

hard性质的组合优化难题。但工艺路线优化中存在着零件加工特征的加工顺序不唯一、加工特征可选用的加工方法不唯一,实现相应加工方法的加工设备不唯一等现象,因此灵活多变。而在多品种小批量产品的生产加工中,由于工艺条件多且动态变化大,工艺路线优化的不确定性因素更多,使得传统工艺路线优化方法无法满足这种动态的加工需求。而现有的解决办法一般是通过启发式算法进行多目标求解,但这类方法需要对每类问题的约束进行特殊处理,同时其求解时会将所有的工序视为整体进行优化,当面临资源动态变化时必须对解范围进行调整,并重新开始规划,不具备动态响应能力。

技术实现思路

[0004]本专利技术针对现有技术的不足,提出一种基于深度强化学习的工艺路线多目标优化方法,在对工艺过程中的各类经济指标和低碳指标的分析后,结合工序间的优先关系建立了多目标优化模型,并利用深度强化学习在复杂建模与决策问题上的显著优势,将优化问题转化为马尔科夫决策过程,定义状态空间、动作空间和奖励函数,进一步地使用了超体积作为多目标评价指标设计基于Actor

Critic结构的深度强化学习方法,以对优化模型进行求解。该方法在加工资源动态变化时可以做出灵活决策,实现了高效稳定且适应性强的多目标优化决策能力,从而解决了小批量定制产品工艺路线优化时所面临的灵活多变问题。
[0005]本专利技术的目的是通过以下技术方案来实现的:
[0006]一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:
[0007]第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;
[0008]其中,所设定的工序间的四种强制性优先约束关系为:
[0009]先粗后精型约束关系:即先安排粗加工类型的工序,后安排精加工类型的工序;
[0010]基准优先型约束关系:在面向基准特征与其依赖特征的加工时,应优先加工基准特征;
[0011]先面后孔型优先关系:在进行面特征及与其对应的孔特征加工时,为满足孔与平面的位置精度要求,应先加工面特征后加工孔特征;
[0012]主次优先型约束关系:主次特征由零部件的应用功能决定,在设计阶段根据用户需求设计零件结构,结合实际功能特性可得到主次优先关系;
[0013]第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体Agent可实现的随机性策略与回报
[0014]将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;
[0015]在状态空间定义上,引入静态变量与动态变量,静态变量是在决策过程中不会发生变化的值,而动态变量在每个决策步骤之前都会更新,具体为:
[0016]将每个工序下的可用机床和刀具资源以配对的形式视为一次组合,待加工工件的所有工序合计L类组合,静态变量包含了候选组合的序号ID
x
、候选组合的工序ME
i
、机床编号和刀具编号动态变量包括了当前状态s
t
下剩余的工序比例当前状态s
t
下工序ME
i
是否已经被选择和当前状态s
t
下工序ME
i
的先行工序剩余比例
[0017]一个工序可能存在若干种机床刀具组合的候选项,分别表示工序ME
i
的第k类可选机床和该机床下第m类可选刀具;
[0018]动态变量表征了当前状态s
t
下剩余的工序比例,初始状态为1,其更新规则为:
[0019][0020]式中,m
t
表示处于状态s
t
时已选择的工序数量,当m
t
等于工序总数n时,序列决策达到终止条件;
[0021]动态变量表征了当前状态s
t
下该工序是否已经被选择,其更新规则为:
[0022][0023]动态变量表征了当前状态s
t
下工序ME
i
的先行工序剩余比例,当ME
i
无先行工序时,其始终为0;当ME
i
有先行工序时,的更新规则为:
[0024][0025]式中,P
i
表示工序ME
i
的先行工序总数,表示处于状态s
t
时P
i
中已被选择的工序数量,初始状态为 0或1,当为0时代表该时刻下ME
i
可被选择;
[0026]和的取值均在[0,1]内,能有效应对待加工工件不同的工序数量,让
模型对数据有更好的感知效果;
[0027]在动作空间定义上,动作a
t
表示Agent在当前状态s
t
下可以做出的行为,其与决策策略相关,在工艺路线优化问题中,动作集合A(s)表示状态s下所有可选的序号ID
x
集合;
[0028]在奖励函数定义上对Agent的奖励将基于工艺总成本、工艺总时间和工艺总碳排放量三类优化目标进行确定,当三类目标值越低时,应对Agent给予越大的奖励进行反馈;
[0029]第三步,基于Actor

Critic结构的深度强化学习方法进行求解。
[0030]优选地,第二步中,所建立的工艺总成本、工艺总时间及总碳排放目标函数为:
[0031]工艺总成本目标函数:
[0032][0033]式中,C
all
为总成本,C
mc
是机床变更成本指数,C
tc
是刀具变更成本指数,C
m
(MID...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的工艺路线多目标优化方法,包括下列步骤:第一步,设定工序间的四种强制性优先关系,建立以工艺总成本、工艺总时间及总碳排放作为优化目标的多目标优化函数,建立工艺路线优化模型;其中,所设定的工序间的四种强制性优先约束关系为:先粗后精型约束关系:即先安排粗加工类型的工序,后安排精加工类型的工序;基准优先型约束关系:在面向基准特征与其依赖特征的加工时,应优先加工基准特征;先面后孔型优先关系:在进行面特征及与其对应的孔特征加工时,为满足孔与平面的位置精度要求,应先加工面特征后加工孔特征;主次优先型约束关系:主次特征由零部件的应用功能决定,在设计阶段根据用户需求设计零件结构,结合实际功能特性可得到主次优先关系;第二步,将工艺路线优化问题转化为马尔可夫决策过程,以模拟智能体Agent可实现的随机性策略与回报,方法如下:将待加工零件工艺路线的确定视为一个完整的马尔科夫决策过程,即从第一个工序及加工资源的选择到最后一个工序和加工资源的确定,整个工艺路线包含了工序的顺序安排及其选用的加工设备,由此定义马尔科夫决策过程的状态空间、动作空间和奖励函数;在状态空间定义上,引入静态变量与动态变量,静态变量是在决策过程中不会发生变化的值,而动态变量在每个决策步骤之前都会更新,具体为:将每个工序下的可用机床和刀具资源以配对的形式视为一次组合,待加工工件的所有工序合计L类组合,静态变量包含了候选组合的序号ID
x
、候选组合的工序ME
i
、机床编号和刀具编号动态变量包括了当前状态s
t
下剩余的工序比例当前状态s
t
下工序ME
i
是否已经被选择和当前状态s
t
下工序ME
i
的先行工序剩余比例一个工序可能存在若干种机床刀具组合的候选项,分别表示工序ME
i
的第k类可选机床和该机床下第m类可选刀具;动态变量表征了当前状态s
t
下剩余的工序比例,初始状态为1,其更新规则为:式中,m
t
表示处于状态s
t
时已选择的工序数量,当m
t
等于工序总数n时,序列决策达到终止条件;动态变量表征了当前状态s
t
下该工序是否已经被选择,其更新规则为:动态变量表征了当前状态s
t
下工序ME
i
的先行工序剩余比例,当ME
i
无先行工序时,其始终为0;当ME
i
有先行工序时,的更...

【专利技术属性】
技术研发人员:袁伟张冠伟郭伟王磊
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1