决策模型的训练方法及系统、调度方法及系统技术方案

技术编号:41139551 阅读:25 留言:0更新日期:2024-04-30 18:10
本发明专利技术公开一种决策模型的训练方法及系统、调度方法及系统,其中对待训练决策模型进行一次训练的步骤如下:获取当前各仿真串行网络所对应的状态参数;获取当前时间步中所对应的样本服务请求;将状态参数输入待训练决策模型,由待训练决策模型预测各仿真服务器处理各样本服务请求的概率,输出相应的行动决策;基于行动决策处理各样本服务请求,并计算各样本服务请求所对应的奖励值,基于奖励值获得总奖励,总奖励用于更新待决策模型的模型参数;本发明专利技术提供了一种在边缘计算环境下,基于强化学习的决策模型训练方法,所得决策模型在实际应用中输出能够有效降低边缘网络中的长尾延迟效应的最优行动决策,从而显著降低服务延迟,提高用户服务体验。

【技术实现步骤摘要】

本专利技术涉及边缘计算领域,尤其涉及一种决策模型的训练技术,以及基于该决策模型的调度方案。


技术介绍

1、边缘计算是一种计算范式,它在本地与附近服务器上执行用户任务。在分布式边缘计算的背景下,用户可以同时选择多个边缘服务器进行并行任务执行。分布式边缘计算中的考虑因素不仅限于边缘服务器支持的服务范围,还包括组合延迟的概念。例如,在从跨边缘用户或终端设备聚合数据进行分析时,必须考虑到上行/下行传输的延迟、边缘服务器之间的协作延迟以及固有的数据处理时间。将组合延迟最小化成为提高用户体验的重要使命。

2、近期的研究主要集中在实现资源高效的延迟最小化上,但现有研究均忽视了尾延迟效应这一关键方面。尾延迟是响应中超过指定阈值的延迟,通常使用第99个百分位(p99)来测量,以捕捉服务延迟的99%位于其下的阈值。在边缘计算中,长尾延迟,通常简称为尾延迟,可能导致严重的排队问题。此外,尾延迟通常出现在来自支付最高的用户的请求响应中,这些用户使用最多的计算资源。改善这些用户的体验尤为重要,考虑到服务响应与收入之间的反向关系,以及增加响应时间对用户体验的显著影响。然而本文档来自技高网...

【技术保护点】

1.一种决策模型的训练方法,其特征在于,在预设的仿真环境下,对待训练决策模型进行若干次训练,直至达到预设的训练完成条件,将相应的待决策模型作为决策模型输出;

2.根据权利要求1所述的一种决策模型的训练方法,其特征在于:

3.根据权利要求2所述的一种决策模型的训练方法,其特征在于:

4.根据权利要求1所述的一种决策模型的训练方法,其特征在于,所述奖励值的计算公式为:

5.根据权利要求1所述的一种决策模型的训练方法,其特征在于:

6.根据权利要求5所述的一种决策模型的训练方法,其特征在于:

7.根据权利要求1所述的一种决...

【技术特征摘要】

1.一种决策模型的训练方法,其特征在于,在预设的仿真环境下,对待训练决策模型进行若干次训练,直至达到预设的训练完成条件,将相应的待决策模型作为决策模型输出;

2.根据权利要求1所述的一种决策模型的训练方法,其特征在于:

3.根据权利要求2所述的一种决策模型的训练方法,其特征在于:

4.根据权利要求1所述的一种决策模型的训练方法,其特征在于,所述奖励值的计算公式为:

5.根据权利要求1所述的一种决策模型的训练方法,其特征在于:

6.根据权利要求5所述的一种决策模型的训练方法,其特征在于:

7.根据权利要求1所述...

【专利技术属性】
技术研发人员:张城邓水光陈天闾赵海亮尹建伟
申请(专利权)人:浙江大学海南研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1