System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于质量与可靠性工程领域,特别涉及一种基于多智能体强化学习的导管装配顺序优化方法。
技术介绍
1、金属导管作为飞机的主要零件,大量应用在飞机液压、环控、燃油系统等关键部位,起到传递能源与动力的作用。当导管存在较大装配应力时,会导致管路发生漏气、漏油等现象,从而使飞机中各个系统发生失压、能源泄露、着火等故障,严重影响飞机系统的性能和安全。在导管的装配过程中,装配应力的大小受到多个因素的影响,包括导管的材料,安装时的预紧力,以及导管本身的设计参数等等。除去这些因素之外,导管的装配顺序也会影响装配应力。由于装配误差的存在,不当的装配顺序会导致装配误差的累积较大,如果某些导管过早安装,可能会对后续导管的定位和对齐产生影响,导致系统中的偏差逐渐增大,从而使得装配应力变大,导致整个系统的密封性能降低。因此在导管装配过程中,合理的装配顺序非常重要。
2、在导管装配过程中,若我们把某一时刻装配的导管的末端位置看作整个系统在当前时刻的状态,那么整个导管装配过程可以看作一个动态转移过程,每装配一根新的导管,其末端位置就会发生改变。在每个阶段,我们需要决策装配哪根导管,以及具体的装配角度,整个过程是一个典型的多阶段序贯决策过程。由于整个问题是基于三维空间考虑的,因此整个解空间非常巨大,且同时存在离散变量和连续变量。因此寻常的动态规划和蒙特卡罗树搜索算法难以求解,不适用于改方法。对于动态规划方法而言,需要预先对整个环境有精确的了解,需要一定的先验知识,但是在实际应用中,往往难以获得合理的先验知识;对于蒙特卡洛树而言,其大多应用于解
3、因此,急需提供一种新的方法以解决导管装配顺序的优化问题。
技术实现思路
1、为了解决上述现有技术的不足,本专利技术提供一种基于多智能体强化学习的导管装配顺序优化方法,能够针对导管装配过程中由于装配顺序不当,导致误差累积从而致使管路连接件装配应力增大,密封性能下降的问题,构建一种基于多智能体强化学习的导管装配顺序优化算法对导管的装配顺序进行优化从而能够解决上述问题。本专利技术的方法首先建立了关于导管装配顺序的优化模型,然后针对其决策空间既包含离散变量又包含连续变量的特点,设计了一种分层的多智能体强化学习算法,用于对问题进行求解,以计算在给定约束的情况下误差累积最小的导管装配顺序以及每个导管具体的装配位置坐标。
2、本专利技术的方法通过引入多智能体强化学习(marl)框架,设计了三个智能体分别决策离散变量和连续变量,继而构建了针对导管装配位置优化的强化学习模型,之后提出了一种分层的深度多智能体q网络算法,并进行数值仿真,实现了最优装配顺序和装配位置的计算,提升产品制造过程能力和产品质量的一致性、稳定性,为基于数据驱动的定量化技术支撑和决策提供依据。
3、为实现上述目的,本专利技术公开了如下技术方案:
4、具体地,本专利技术提供一种基于多智能体强化学习的导管装配顺序优化方法,该方法具体步骤如下:
5、s1、引入多智能体强化学习框架,定义智能体及其状态空间;
6、s2、基于定义的智能体及其状态空间,定义智能体在状态空间内的动作空间;
7、s3、基于定义的智能体、状态空间和动作空间,定义智能体在各状态下采取指定动作对应的奖励函数,以及反映未来回报对当前决策影响程度的折扣因子;
8、s4、定义各智能体在进行动作决策时的约束条件,约束条件包括装配角度偏差约束、装配末端位置约束以及离散动作空间约束,形成针对导管装配位置优化的强化学习模型;
9、s5、基于针对导管装配位置优化的强化学习模型,提出深度多智能体分层q网络算法;
10、s6、基于深度多智能体分层q网络算法,进行数值仿真分析,验证导管装配位置优化方法。
11、优选地,步骤s1具体包括以下子步骤:
12、s11、分别定义总智能体和子智能体,其中,总智能体agenttot负责选择装配导管的序号以及开始装配导管的位置;子智能体agent1和子智能体agent2分别负责从一端开始装配导管;
13、s12、针对每一个智能体,定义其在t阶段的状态空间,其中,子智能体的状态空间包括:从某一端开始装配时在t阶段装配完成后导管末端的位置坐标以及在当前阶段选用导管的长度;总智能体的状态空间包括:各子智能体在t阶段装配完成后导管末端的位置坐标以及各子智能体在t阶段装配完成后导管所在直线与x、y、z轴正向的夹角;
14、子智能体agent1的状态空间s1(t)为:
15、
16、子智能体agent2的状态空间s2(t)为:
17、
18、其中,表示从第一端点开始装配时在t阶段装配完成后导管末端的位置坐标,在初始阶段表示在当前阶段选用导管的长度;表示从第二端点开始装配时在t阶段装配完成后导管末端的位置坐标,在初始阶段
19、总智能体agenttot的状态空间为:
20、
21、其中,
22、
23、其中,分别表示两个子智能体在上一个阶段的动作;α、β和分别表示导管所在直线与x、y、z轴正向的夹角;在初始阶段,两端的α为0,β和均为π/2;在后续阶段,由两个子智能体agent1、agent2进行决策更新。
24、优选地,步骤s2具体包括以下子步骤:
25、s21、针对每一个智能体,定义其在t阶段的动作;其中,总智能体的动作信息包括:在t阶段选择装配第i根导管的长度、用于决策被选导管应该从左边开始装配还是从右边开始装配的信息;子智能体的动作信息包括两端导管所在直线与x、y、z轴正向的夹角;
26、s22、根据智能体在t阶段的状态和动作,更新智能体在t+1阶段的状态。
27、优选地,步骤s2中,总智能体agenttot的动作atot(t)为:
28、
29、其中,表示在t阶段选择装配第i根导管,为第i根导管的长度,i(t)用于决策选择的导管应该从第一端或第二端开始装配:
30、
31、在当前阶段执行atot(t)后,stot(t)转化到stot(t+1):
32、
33、其中,若i(t)=1,则只更新而保持不变;若i(t)=0,则只更新而保持不变;
34、和均由子智能体的策略网络进行更新;
35、分别定义两个子智能体的动作a1(t)、a2(t)如下:
36、
37、a1(t)、a2(t)分别表示两端导管与x、y、z轴正向的夹角;在初始阶段,
38、
39、
40、同时a1(t)和a2(t)满足:
41、
42、在当前阶段执行a1(t)后,s1(t)转化到s1(t+1):
43、
44、在当前阶段执行a2(t)后,s2(t)转化本文档来自技高网...
【技术保护点】
1.一种基于多智能体强化学习的导管装配顺序优化方法,其特征在于:该方法具体步骤如下:
2.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S1具体包括以下子步骤:
3.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S2具体包括以下子步骤:
4.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S2中,总智能体Agenttot的动作atot(t)为:
5.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S3具体包括以下子步骤:
6.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S4具体包括以下子步骤:
7.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S42中在两端装配的末端导管之间具有径向偏差与长度偏差的约束,径向偏差为一根导管末端端点到另一根导管所在轴线的距离,dr1和dr2分别为两个导管的径向偏差,径向偏差约束如
8.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S5具体包括以下子步骤:
9.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S51中在上层网络结构Qtot网络的参数中引入噪声,最终的TD目标L(ωtot)和TD误差ytot如下:
10.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤S6具体包括以下子步骤:
...【技术特征摘要】
1.一种基于多智能体强化学习的导管装配顺序优化方法,其特征在于:该方法具体步骤如下:
2.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤s1具体包括以下子步骤:
3.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤s2具体包括以下子步骤:
4.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤s2中,总智能体agenttot的动作atot(t)为:
5.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤s3具体包括以下子步骤:
6.根据权利要求1所述的基于多智能体强化学习的导管装配顺序优化方法,其特征在于:步骤s4具体包括以下子步骤...
【专利技术属性】
技术研发人员:臧阳阳,梁昭磊,潘讯,常志刚,梁家贤,
申请(专利权)人:中国航空综合技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。