融合强化学习和差分进化的产品变更路径多目标优选方法技术

技术编号:38239780 阅读:14 留言:0更新日期:2023-07-25 18:03
本发明专利技术公开了融合强化学习和差分进化的产品变更路径多目标优选方法,包括以下步骤:建立复杂产品网络模型,表明设计变更在产品网络模型中的传播过程;建立设计变更传播路径的多目标优化模型;利用双深度Q

【技术实现步骤摘要】
融合强化学习和差分进化的产品变更路径多目标优选方法


[0001]本专利技术涉及产品设计
,尤其是涉及融合强化学习和差分进化的产品变更路径多目标优选方法。

技术介绍

[0002]设计变更在复杂产品研发过程中不可避免。由于客户需求、供应链中断、法律法规变化等原因,现实生产经常需要重新设计整个产品或其关键零部件。由于产品零部件之间复杂的依赖关系,一个零部件的设计变更可能导致其他零部件发生连锁变更,从而引发变更传播。如果不能有效控制产品设计变更过程,变更的不断传播会对产品综合性能、成本和研发工期产生负面影响。因此,研究复杂产品的设计变更问题十分必要。
[0003]现有的常见产品设计变更方案优选方法和工具,通常只考虑产品变更时的成本或工期,没有考虑产品变更时的产品综合性能影响程度,少数学者给出了多目标进化求解方法,但是大都是基于NSGA

II,依然存在收敛速度慢、易于局部收敛等问题。
[0004]因此,需要一种技术,同时考虑多个优化目标如产品综合性能影响程度、变更成本、变更工期等建立多目标优化模型,并针对当前求解方法的不足进行优化。

技术实现思路

[0005]本专利技术的目的是提供融合强化学习和差分进化的产品变更路径多目标优选方法,当产品零件发生变更时,可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案,解决现有方法中收敛速度慢、易于局部收敛等问题。
[0006]为实现上述目的,本专利技术提供了融合强化学习和差分进化的产品变更路径多目标优选方法,包括以下步骤:
[0007]S1、建立复杂产品网络模型,表明设计变更在产品网络模型中的传播过程;
[0008]S2、建立设计变更传播路径的多目标优化模型;
[0009]S3、利用双深度Q

网络帮助种群在不同阶段选择适合的进化策略,建立强化学习引导的差分进化算法即DDQN

DE算法,进行多目标优化模型的求解。
[0010]优选的,所述步骤S1中复杂产品网络模型建立过程包括如下步骤:
[0011]S1

1、根据复杂产品的组成,将其分解为部件的集合,将每个部件进一步分解为零件的集合,最终获得产品零件集合;
[0012]S1

2、根据区间直觉模糊集理论从节点之间的功能关系、节点间的物理结构关系、用户参与程度以及产品的可持续性和适应性方面计算零件之间的关联强度值;
[0013]S1

3、根据关联强度值和零件集合,建立问题的复杂产品网络模型。
[0014]优选的,所述步骤S1

2中综合关联强度值具体公式如下:
[0015][0016]其中,表示关联强度值,和h
s
分别表示两个节点之间的物理结构相关强度及
其权重,和h
f
分别表示两个节点之间的功能相关强度及其权重,和h
cs
分别表示设计节点时用户的参与程度及其权重,和h
a
分别表示产品的可持续性和适应性及其权重。
[0017]优选的,所述步骤S2中设计变更传播路径的多目标优化模型建立过程包括如下步骤:
[0018]S2

1、根据步骤S1中建立的复杂产品网络模型,求出每个产品零件的变更传播指数、加权聚集系数以及PageRank评分,根据产品设计变更数据库获取变更传播概率,对变更传播指数、加权聚集系数、PageRank评分和变更传播概率进行加权求和量化产品设计变更传播强度,从而间接描述产品零件变更对产品综合性能的影响程度;
[0019]S2

2、根据产品设计任务数据库,获得产品零件的变更工期和成本;
[0020]S2

3、对产品设计变更传播强度、变更成本和变更工期进行加权求和处理,构建多目标优化模型。
[0021]优选的,所述步骤S2

1中变更传播指数K
i
的计算公式为
[0022][0023]式中代表节点v
i
的出度,即节点v
i
变更影响到的其它节点的个数;代表节点v
i
的入度,即变更会影响到节点v
i
的其它节点的个数;
[0024]加权聚集系数的计算公式为
[0025][0026]式中,d
i
表示节点v
i
的度,w
ij
、w
jh
和w
hi
分别表示节点v
i
、v
j
和v
h
之间的三边权重;w
max
是产品网络中最大的连边权重值;
[0027]PageRank评分即节点v
i
的重要性PR
i
计算公式为
[0028][0029]式中,节点v
j
是节点v
i
的下游节点,DS
i
是节点v
i
的下游节点集合,q∈(0,1)是阻尼因子,表示用户在任何时候向下访问的概率,n是节点总数;
[0030]变更传播概率P
ij
的计算公式为
[0031][0032]式中,P(v
i
)和P(v
j
)分别为节点v
i
和v
j
发生变更的概率,P(v
i
∩v
j
)为两个节点同时发生变更的概率;当v
j
和v
i
之间无连接边时,P
ij
=P
ji
=0。
[0033]优选的,所述步骤S3中多目标优化模型的求解包括如下步骤:
[0034]S3

1、初始化相关参数,包括传统DE算法所需参数、DDQN网络所需参数,同时初始化种群中个体的位置,并根据初始种群评估强化学习的初始状态;
[0035]S3

2、在每次算法迭代过程中,使用ε贪心策略自主选择合适的强化学习动作,并
根据选择的差分进化策略更新种群;
[0036]S3

3、当算法迭代次数大于阈值时,DDQN

DE算法依据当前动作的奖励值和种群下一时刻状态等信息动态更新主Q

网络,并以一定的频率更新目标Q

网络;
[0037]S3

4、重复执行步骤S3

1至S3

3,直到算法运行结束,输出产品设计变更方案。
[0038]本专利技术所述的融合强化学习和差分进化的产品变更路径多目标优选方法的优点和积极效果是:
[0039]1、本专利技术在考虑最小化变更成本和变更工期等常用指标的情况下,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于,包括以下步骤:S1、建立复杂产品网络模型,表明设计变更在产品网络模型中的传播过程;S2、建立设计变更传播路径的多目标优化模型;S3、利用双深度Q

网络帮助种群在不同阶段选择适合的进化策略,建立强化学习引导的差分进化算法即DDQN

DE算法,进行多目标优化模型的求解。2.根据权利要求1所述的融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于,所述步骤S1中复杂产品网络模型建立过程包括如下步骤:S1

1、根据复杂产品的组成,将其分解为部件的集合,将每个部件进一步分解为零件的集合,最终获得产品零件集合;S1

2、根据区间直觉模糊集理论从节点之间的功能关系、节点间的物理结构关系、用户参与程度以及产品的可持续性和适应性方面计算零件之间的关联强度值;S1

3、根据关联强度值和零件集合,建立问题的复杂产品网络模型。3.根据权利要求2所述的融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于:所述步骤S1

2中关联强度值具体公式如下:其中,表示关联强度值,和h
s
分别表示两个节点之间的物理结构相关强度及其权重,和h
f
分别表示两个节点之间的功能相关强度及其权重,和h
cs
分别表示设计节点时用户的参与程度及其权重,和h
a
分别表示产品的可持续性和适应性及其权重。4.根据权利要求1所述的融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于,所述步骤S2中设计变更传播路径的多目标优化模型建立过程包括如下步骤:S2

1、根据步骤S1中建立的复杂产品网络模型,求出每个产品零件的变更传播指数、加权聚集系数以及PageRank评分,根据产品设计变更数据库获取变更传播概率,对变更传播指数、加权聚集系数、PageRank评分和变更传播概率进行加权求和量化产品设计变更传播强度,从而间接描述产品零件变更对产品综合性能的影响程度;S2

2、根据产品设计任务数据库,获得产品零件的变更工期和成本;S2

3、对产品设计变更传播强度、变更成本和变更工期进行加权求和处理,构建多目标优化模型。5.根据权利要求4所述的融合强化学习和差分进化的产品变更路径多目标优选方法,其特征在于:所述步骤S2

1中变更传播指数K
i
的计算公式为式中代表节点v
i
...

【专利技术属性】
技术研发人员:宋贤芳张勇杨扬彭超郑瑞钊孙晓燕
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1