基于Transformer架构云系统冗余分配问题的求解方法技术方案

技术编号：41329052 阅读：54 留言：0更新日期：2024-05-13 15:07

本发明专利技术公开了一种基于Transformer架构云系统冗余分配问题的求解方法，该方法首先是针对业务混合部署的云系统场景建模表示为一个由提供特定服务的组件节点组成的有向加权图，然后基于业务信息和指数可靠性来量化系统组件的容错性，进一步是结合本轮要服务的业务群信息计算系统的容错性，在制定容错策略之前，组件关键度的衡量可以用为容错手段的部署提供依据，以便更有效地提高系统可靠度和节约成本。相较于当下大多数研究中使用的启发式算法和传统深度强化学习策略，T‑DRL在系统容错性能和组件关键度评估的基础上，捕捉了组件可靠性、关键度和冗余资源性能及成本在内的各种因素，实现了利用深度强化学习模型高效求解云中的RAP。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度学习技术，具体涉及网融合领域中的可靠性增强方向和运筹学领域中的单目标优化技术，尤其涉及基于transformer架构云系统冗余分配问题的求解方法。

技术介绍

1、冗余分配问题(redundancy allocation problem,rap)是可靠性领域中的一种经典的优化问题，在过去三四十年中被广泛应用于许多高价值的工程、工业和科学应用的设计阶段。在实际的任务中，rap的优化目标可能涉及可靠性、可用性、成本和重量等。通常，研究者们可以通过将一些目标作为解的约束来简化问题，旨在成本等约束下最大化系统的可靠性等。然而，rap作为一个公认的np-hard问题，其计算量会随着系统(建模系统为一个有向带权图wdg)中节点和弧的数量呈指数级增长。因此，重点是开发近似方法来求解rap，避免数值困难并减少计算负担。

2、现有技术中，最常用算法，包括代遗传算法，线性规划方法，免疫算法，粒子群算法(pso)，模拟退火(sa)等。这些方法虽然可以提供一种寻找更大问题的最佳解决方案的战术方法，但是它们通常算法参数多，调整复杂，往往需要进行大量的迭代得到某个具体问题的较优解，因此导致算法的迭代求解时间比较长，计算效率偏低，并且当问题中的某个参数发生细微的改变时，都需要重新运行算法，并不具有泛化能力。此外，由于云计算商业模式的特点，这类求解方法可能需要消耗大量珍贵的计算时间和存储资源，从而导致更高的成本，这导致上述问题相较于传统行业中的会格外显著。

3、随着人工智能技术的发展，深度强化学习技术(deep rein

4、本专利技术提出了一种基于transformer架构云系统冗余分配问题的求解方法，相较于当下大多数研究中使用的启发式算法和传统深度强化学习策略，t-drl在系统容错性能和组件关键度评估的基础上，捕捉了组件可靠性、关键度和冗余资源性能及成本在内的各种因素，实现了利用深度强化学习模型高效求解云中的rap。

技术实现思路

1、专利技术目的：本专利技术提出了一种基于transformer架构的深度强化学习的业务混合部署的云系统中rap的求解方法，t-drl结合了系统、组件和冗余资源等各种因素，实现了利用单个深度强化学习模型高效求解云中的“1+n”的rap。

2、技术方案：一种基于transformer架构云系统冗余分配问题的求解方法，该方法包括采用“1+n”冗余机制通过并行的容错方式来提高基于深度强化学习的业务混合部署的云系统的可靠性，步骤如下：

3、s1、构建业务混合部署的云系统模型，且基于业务信息和指数可靠性的计算来量化系统组件的容错性，结合本轮要服务业务群信息得到下列用于计算系统容错性的公式，表示为：

4、

5、其中，npaths是云系统中工作流路径的数量，是需要调用路径i的业务数量与本轮业务群的业务总数之比；是第i条路径的容错性能，由路径中的组件容错性与路径的拓扑结构计算所得；

6、s2、定义“1+n”冗余机制中冗余分配问题，以实现根据环境的状态和现存冗余资源的性能成本情况动态调整冗余的分配，其中包括：

7、s21、对组件单元性能的计算，计算公式如下：

8、

9、式中是分配给组件节点vi的冗余资源数量，为这些冗余资源的可靠性；

10、s22、优化冗余分配问题，确保冗余组件只有被分配和闲置两种状态，并且每个冗余组件最多被分配一次，考虑到每个冗余都有一个随其性能增强而增长的成本，必须限制使用冗余带来的成本不能大于系统的预算，得到约束的建模如下：

11、

12、

13、totalcost≤budget

14、其中，其中a是一个0-1矩阵，其行列的数量分别等于关键组件的数量nc和冗余的数量nrdd；若a[i][j]＝1代表说明把第j个冗余分配给了第i个关键组件，反之则未分配，由此使用的冗余总成本可计算如下：

15、

16、冗余资源的可靠性可通过下面对角矩阵来表示：

17、

18、进一步，已经分配的冗余对应的失效概率矩阵可以计算为：

19、

20、式中，是一个与a相同维度的全1矩阵；

21、综上，结合并行方式的性能公式，可以得到决策结束后每个关键组件单元的容错性能计算方式：

22、

23、s23、将冗余分配问题定义为马尔科夫决策过程，动作at定义为智能体在时间步t时所选择的关键组件和冗余，从起始时间步到结束时产生的动作序列用{a0,a1,…,an}表示；

24、在第t步时，系统的状态主要包括关键组件状态、和剩余预算和当前解状态，即st＝{vct,budgett,ut}；

25、在当前解状态中，包含所有冗余资源的分配情况，即关键组件状态vct中主要包括每个关键组件被选择的次数；

26、s3、设计基于transformer的深度强化学习方法对关键组件和冗余信息分别进行编码，包括采用多头注意力机制运算、归一化与残差连接以及全连接前馈，通过对筛选出来的关键组件和冗余池中的资源信息分别进行编码；

27、s4、设计基于transformer的深度强化学习方法对编码信息进行解码决策，包括对两种单元分别进行了信息编码，组件和冗余分别被表述为一类智能体，在每个时间步t中两类智能体分别选择一个同类点作为本轮的决策；

28、其中，智能体的目标是通过重复训练过程学习最优策略以最大化预期累积奖励，即系统容错性能，并且考虑到解码过程吸收了前一种编码器架构生成的嵌入信息；所以该方法根据算法策略激活所有可选择点，智能体由此选择下一跳节点进行访问，即，以在每个时间步t,智能体根据当前状态和之前的动作接收到环境状态信息st选择一个动作。

29、s5、设计基于transformer的深度强化学习方法训练过程，该过程中，算法的网络参数采用端到端方式联合训练，每一轮训练都生成一批实例输入到变压器体系结构中，在最大限度利用训练结果的基础上，通过神经网络进行配对决策，根本文档来自技高网...

【技术保护点】

1.一种基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，该方法包括采用“1+N”冗余机制通过并行的容错方式来提高基于深度强化学习的业务混合部署的云系统的可靠性，步骤如下：

2.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S1包括将云系统建模成由为混合业务提供某种特定云服务的组件节点组成的有向加权图G＝{V,E}，其中V＝{v1,v2,...,vn}代表n个组件节点，E为组件之间调用关系的带权有向边。

3.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S1还包括计算云系统中每个组件关键度以制定容错策略，对于系统组件的容错性的数学表达式为：

4.根据权利要求3所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S1中，考虑组件关键度的衡量可以为容错手段的部署提供依据，以便更有效地提高系统可靠度和节约成本，进而步骤S2在针对冗余分配问题中的系统容错策略制定中，包括对计算云系统中每个组件的关键度，表示为Ci(i＝1,2,...,n)。

5.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S2所述的“1+N”冗余分配问题中，包括采用“1+N”冗余机制通过并行的容错思路来提高系统的可靠性，在该结构中，为一个关键组件分配若干个冗余资源块；当服务时，将数据输入给所有块同时运行，因此，它的容错能力取决于所使用的冗余的数量和质量，只有当所有块均失效时该结构才会失效。

6.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S3具体包括：

7.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S4对关键组件进行信息拼接时除了所有关键组件的初始信息嵌入外只包括同类智能体的信息，而冗余则不关注此前选择的同类信息而是选择当前时间步选择的关键组件信息和剩余预算与初始嵌入拼接。

8.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S4中的解码过程具体如下：

9.根据权利要求1所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤S5对神经网络参数进行优化的梯度函数如下：

10.根据权利要求9所述的基于Transformer架构云系统冗余分配问题的求解方法，其特征在于，策略网络采用sampling的方法选择动作，基线网络则是根据贪婪策略选择最大概率的动作；在每个批次中，若t检验结果在95％可信度是显著的，则用策略网络的参数更新基线网络。

...

【技术特征摘要】

1.一种基于transformer架构云系统冗余分配问题的求解方法，其特征在于，该方法包括采用“1+n”冗余机制通过并行的容错方式来提高基于深度强化学习的业务混合部署的云系统的可靠性，步骤如下：

2.根据权利要求1所述的基于transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤s1包括将云系统建模成由为混合业务提供某种特定云服务的组件节点组成的有向加权图g＝{v,e}，其中v＝{v1,v2,...,vn}代表n个组件节点，e为组件之间调用关系的带权有向边。

3.根据权利要求1所述的基于transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤s1还包括计算云系统中每个组件关键度以制定容错策略，对于系统组件的容错性的数学表达式为：

4.根据权利要求3所述的基于transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤s1中，考虑组件关键度的衡量可以为容错手段的部署提供依据，以便更有效地提高系统可靠度和节约成本，进而步骤s2在针对冗余分配问题中的系统容错策略制定中，包括对计算云系统中每个组件的关键度，表示为ci(i＝1,2,...,n)。

5.根据权利要求1所述的基于transformer架构云系统冗余分配问题的求解方法，其特征在于，步骤s2所述的“1+n”冗余分配问题中，包括采用“1+n”冗余机制通...

【专利技术属性】
技术研发人员：王然，谢声波，吴强，郝洁，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人