当前位置: 首页 > 专利查询>郑州大学专利>正文

一种面向多级服务活动的资源协调方法技术

技术编号:39586858 阅读:12 留言:0更新日期:2023-12-03 19:38
本发明专利技术提供一种面向多级服务活动的资源协调方法

【技术实现步骤摘要】
一种面向多级服务活动的资源协调方法、系统及装置


[0001]本专利技术涉及数据处理
,特别是指一种面向多级服务活动的资源协调方法

系统及装置


技术介绍

[0002]网络协同制造平台涉及众多服务领域,比如设计

制造

供应

营销等,提供了满足各类场景业务需要的功能,包括但不限于制造业企业

供应链上下游

营销与采购全流程涉及的产线管理

产品测试

供应商管理

物资管理

合同管理

到货验收等,强大且复杂多样的业务功能使系统在部署时占据较大的服务器资源,随着用户的增长很容易导致系统运行卡顿甚至系统崩溃停机,影响参与协同的制造企业正常使用


技术实现思路

[0003]本专利技术要解决的技术问题是提供一种面向多级服务活动的资源协调方法

系统及装置,通过构建面向多级服务活动的资源协调调度方法,以动态资源调度为技术手段,通过系统状态转移和动作行为产生的行为价值评估自适应策略的优劣,为服务资源在多个服务模块之间协调提供决策依据

[0004]为解决上述技术问题,本专利技术的技术方案如下:
[0005]第一方面,一种面向多级服务活动的资源协调方法,所述方法包括:
[0006]获取网络协同制造平台中服务模块的服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合;
[0007]根据所述服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率;
[0008]获取服务资源状态进行状态转移的反馈奖励;
[0009]根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励;
[0010]根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略;
[0011]按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度

[0012]进一步的,根据所述服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率,包括:
[0013]根据公式计算服务模块的第一服务资源状态
s
下转换到第二服务资源状态
s'
的转移概率其中,
a
为行动,
π
(a|s)
为分布概率,表示在执行动作
a

,
从状态
s
转移到状态
s

的概率

[0014]进一步的,获取服务资源状态进行状态转移的反馈奖励,包括:
[0015]根据获取服务资源状态进行状态转移的反馈奖励,其中,为反
馈奖励,为采取行动
a
后当前状态取得的即时奖励

[0016]进一步的,根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励,包括:
[0017]根据确定服务资源状态进行状态转移的转移路径的长期奖励;其中,衰减系数
λ
的取值范围为
0≤
λ
≤1

π1和
π2相同,
G
t
为在时刻
t
的状态
s
下采取策略
π
的长期预期奖励,为在
t+k+1
时刻采取策略
π
k+1
下的即时奖励;
π
为策略,
k
为未来的时刻

[0018]进一步的,根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略,包括:
[0019]通过基于资源分配策略的行为价值函数
Q
π
(s,a)
评估在当前状态下执行每一行为
a
后继续遵循当前策略获得未来期望;
[0020]计算在当前状态下执行每一行为
a
后继续执行该行为所在的原有策略导致不同情况发生所获得的不同的行为收益期望
Q
π
(s,a)

[0021]状态
s
下采取策略
π
中行为
a
后选择最大的行为价值函数为最优行为价值函数
Q
π
(s,a)
*
,最优行为价值函数所对应的策略则为最优资源分配策略

[0022]进一步的,行为收益期望
Q
π
(s,a)
的计算公式为:
[0023][0024]其中,
Q
π
(s,a)
为状态
s
采取动作
a
的状态

动作价值函数,
E
π
为按照策略
π
采取动作时的期望值,
G
t
为时刻
t
的累积折现奖励,
s
为当前状态,
a
为当前采取的动作,为按照策略
π
,时刻
t+1
的即时奖励;
Q
π
(S
t+1
,A
t+1
)
为时刻
t+1
的状态
S
t+1
采取动作
A
t+1
的状态

动作价值函数,
S
t
为当前状态;
A
t
为当前采取的动作;
[0025]最优行为价值函数
Q
π
(s,a)
*
的计算公式为:
[0026][0027]其中,
π
(a|s)
为在状态
s
下采取动作
a
的概率;为状态
s
采取动作
a
的即时奖励;为从状态
s
执行动作
a
转移到状态
s

的概率;
Q(s',a)
为状态
s

采取动作
a
的状态

动作价值函数

[0028]进一步的,按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度,包括:
[0029]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向多级服务活动的资源协调方法,其特征在于,所述方法包括:获取网络协同制造平台中服务模块的服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合;根据所述服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率;获取服务资源状态进行状态转移的反馈奖励;根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励;根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略;按照所述最优资源分配策略进行网络协同制造平台中服务模块的服务资源调度
。2.
根据权利要求1所述的面向多级服务活动的资源协调方法,其特征在于,根据所述服务资源状态

该服务资源状态下可能执行的资源分配策略以及所述资源分配策略中的动作集合,确定服务资源状态进行状态转移的转移概率,包括:根据公式计算服务模块的第一服务资源状态
s
下转换到第二服务资源状态
s'
的转移概率其中,
a
为动作,
π
(a|s)
为分布概率,表示在执行动作
a

,
从状态
s
转移到状态
s

的概率
。3.
根据权利要求2所述的面向多级服务活动的资源协调方法,其特征在于,获取服务资源状态进行状态转移的反馈奖励,包括:根据获取服务资源状态进行状态转移的反馈奖励,其中,为反馈奖励,为采取动作
a
后,当前状态取得的即时奖励
。4.
根据权利要求3所述的面向多级服务活动的资源协调方法,其特征在于,根据所述反馈奖励,确定服务资源状态进行状态转移的转移路径的长期奖励,包括:根据确定服务资源状态进行状态转移的转移路径的长期奖励;其中,衰减系数
λ
的取值范围为
0≤
λ
≤1

π1和
π2相同,
G
t
为在时刻
t
的状态
s
下采取策略
π
的长期预期奖励,为在
t+k+1
时刻采取策略
π
k+1
下的即时奖励;
π
为策略,
k
为未来的时刻
。5.
根据权利要求4所述的面向多级服务活动的资源协调方法,其特征在于,根据所述长期奖励,确定目标服务资源状态下采取的资源分配策略中的动作后选择最大的行为价值函数为最优资源分配策略,包括:通过基于资源分配策略的行为价值函数
Q
π
(s,a)
评估在当前状态下执行每一行为
a
后继续遵循当前策略获得未来期望;计算在当前状态下执行每一行为
a
后继续执行该行为所在的原有策略导致不同情况发生所获得的不同的行为收益期望
Q
π
(s,a)
;状态
s
下采取策略
π
中行为
a
后选择最大的行为价值函数为最优行为价值函数
Q
π
(s,a)
*

最优行为价值函数所对应的策略则为最优资源分配策略
。6.
根据权利要求5所述的面向多级服务活动的资源协调方法,其特征在于,行为收益期望
Q
π
(s,a)
的计算公式为:其中,
Q
π
(s,a)
为状态
s
采取动作
a
的状态

动作价值函数,
E
π

【专利技术属性】
技术研发人员:马正祥刘晓亮许圣斌夏宁郭芳敏王文猛王彦杰董知沅
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1