【技术实现步骤摘要】
一种基于多策略深度强化学习的云制造服务组合方法
[0001]本专利技术涉及云制造服务组领域,特别涉及一种基于多策略深度强化学习的云制造服务组合方法。
技术介绍
[0002]在生活质量不断提高的今天,用户对个性化产品的需求也越来越大。然而,由于资源有限,单个企业的制造资源和能力已经不能满足用户的需求。为了解决这一问题,企业需要通过共享制造资源和能力进行有效地协作。一种面向服务的智能制造新模式
‑‑
云制造(Cloud manufacturing,CMfg)应运而出。在云制造平台中,企业共享的制造资源和能力被封装成服务,通过互联网提供给用户选择。服务组合与优化选择(Service composition and optimization selection,SCOS)被认为是云制造平台实现资源和能力共享的关键技术。SCOS根据不同的组合结构,将各种功能不同的细粒度服务集成为具有综合功能的粗粒度服务,以处理复杂的制造任务,满足用户的需求。快速、有效地处理最优组合策略问题受到了广泛的关注。
[0003]到目前 ...
【技术保护点】
【技术特征摘要】
1.一种基于多策略深度强化学习的云制造服务组合方法,其特征在于:包括如下步骤:S1:通过现有方法获取虚拟数据集,该虚拟数据集由多个服务组成;设一个任务T由n个子任务构成,一个子任务对应一个服务集,服务集中的一个服务对应一个动作,每个服务具有多个QoS属性值,所述QoS属性值是取[0.7,0.95]之间的任一数据值;定义:T={t1,t2,
…
t
i
…
t
n
},t
i
表示T的第i个子任务,i=1,2,
…
n;表示子任务t
i
对应的第μ个服务,μ=1,2,
…
c;表示子任务t
i
对应的第μ个服务所对应的动作;表示子任务t
i
对应的第μ个服务QoS属性值,该第μ个服务QoS属性值是对第μ个服务对应的多个QoS属性值进行归一化后得到的;m1为当前任务T求得的服务链中所有服务QoS值的算术平均值;m2为间隔设定时间后,当前任务T求得的服务链中所有服务QoS值的算术平均值;S2:构建Multi
‑
D3QN模型,该将DQN算法的网络结构修改为竞争结构,将DQN算法的随机采样机制修改为优先回放机制,并在学习阶段将单估计器修改为双估计器;Multi
‑
D3QN模型还包括模型Q
‑
network和模型Q
‑
target;S3:初始化Multi
‑
D3QN模型的参数,初始m1=m2=0,初始化经验池D,设定优先级,初始化模型Q
‑
network的动作值函数Q,初始化模型Q
‑
target的动作值函数Q
*
;S4:从虚拟数据集中随机选择一个任务T;S5:令k=1;S6:令i=1;S7:如果m1>m2,则执行S8
‑
1;否则执行S8
‑
4;S8
‑
1:选取t
i
的最优动作步骤如下:判断t
i
对应的服务集中所有的服务的QoS属性值是否小于0:如果t
i
对应的第μ个服务的QoS属性值小于0,则表示有不可用服务,并执行下一步;如果t
i
对应的第μ个服务的QoS属性值大于或等于0,则执行S8
‑
4;S8
‑
2:随机生成一个概率x1,ε1表示预设概率,如果x1<ε1,则准最优动作并执行下一步,其中,θ表示动作值函数Q的参数;否则在中随机选择一个动作作为准最优动作并执行下一步;S8
‑
3:判断准最优动作对应的服务的QoS属性值否小于0:如果准最优动作对应的服务的QoS属性值小于0则屏蔽对应的服务,并重新随机选择一个动作作为否则将动作作为并执行S8;S8
‑
4:随机生成一个概率x2,ε2表示预设概率:
如果x2<ε2,则最优动作并执行下一步,其中,θ表示动作值函数Q的参数;否则在中随机选择一个动作作为准最优动作S9:执行并将t
i
对应的服务集将t
i
对应的服务集中所有服务的QoS属性值和t
i
的下一个服务集作为一个样本存入D中,所述样本表示为S10:判断D中的样本是否到达最大容量,如果没有到达在执行下一步,否则执行S12S11:判断i是否大于n,如果是则执行下一步,否则令i=1+1并返回S8;S12:判断j是否大于最大迭代次数,如果是将输出对应的每个服务均作为最优服务,输出和最优服务组成的服务链;否则令k=k+1,计算m1和m2,并更新m1和m2并返回S6;S13:利用S8得到的样本训练模型Q
‑
network,并返回S10。2.如权利要求1所述的基于多策略深度强化学习的云制造服务组合方法,其特征在于:所述S13中训练模型Q
‑
network的过程如下:S13
‑
1:设D中所有样本的初始优先级S13
‑
2:令c=1;S13
‑
3:从D中根据采样概率小批量采样b个样本,每个样本的采样概率采用如下公式计算...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。