一种边缘计算中服务功能链放置的强化学习方法技术

技术编号：30701501 阅读：37 留言：0更新日期：2021-11-06 09:38

本发明专利技术公开了一种边缘计算中服务功能链放置的强化学习方法，所述方法为OSIR算法；所述OSIR算法基于深度强化学习进行设计，在深度强化学习中，智能体和环境是其中的两个主要构成组件；所述智能体观察环境状态S

全部详细技术资料下载

【技术实现步骤摘要】
一种边缘计算中服务功能链放置的强化学习方法

[0001]本专利技术涉及移动边缘计算领域的调度算法领域，具体涉及一种边缘计算中服务功能链放置的强化学习方法。

技术介绍

[0002]在现有在移动边缘计算中布置服务功能链的工作中，如何有效分配网络资源以提高服务质量是一个重要问题。现有的研究，通常构建了启发式的算法来解决服务功能链的放置：对服务功能链中的每一个虚拟化网络功能，分配对应的计算和存储资源，同时在保证链路通信资源的情况下，降低服务成本或者延迟。通常这类算法假设对全局信息有充分的先验知识，或者划分成一个个时间片段延后决策。
[0003]少部分研究提出了通过深度强化学习完成服务功能链放置，他们通过对边缘计算网络进行建模并作为强化学习的状态设置，把调度的节点作为动作空间，通过不断迭代的方式，找到放置策略。
[0004]由于边缘计算网络越来越复杂，使得很难去准确的预测网络的变化。基于启发式的算法，对先验知识的要求或者延后决策的方法都会大大牺牲网络功能虚拟化中提供灵活的服务布置的初衷。而现有的通过深度强化学习...

【技术保护点】

【技术特征摘要】
1.一种边缘计算中服务功能链放置的强化学习方法，所述方法为OSIR算法；所述OSIR算法基于深度强化学习进行设计，在深度强化学习中，智能体和环境是其中的两个主要构成组件；所述智能体观察环境状态S
τ
,并且根据策略给出动作A
τ
，之后，环境返还给智能体对应的奖励R
τ
(S
τ
，A
τ
)，并更新到下一个状态S
τ+1
，在智能体与环境的这样不断交互的过程中，智能体通过不过更新自己的策略来或者最大化长期收益；具体流程如下:S1、当环境接收到一个新的用户的服务请求u时，环境把当前u的信息和边缘网络的信息组成当前的状态S
τ
，并把状态S
τ
缓存在本地；S2、对于u中的网络功能列表N
u
，j从1到|N
u
|开始循环：S3、智能体观察环境状态S
τ
；S4、当判定：j＝1，即执行：更新服务队列网络S5、智能体根据放置策略选择一个动作A
τ
；S6、环境计算奖励R
τ
，并反馈给环境；S7、如果判定：由于资源不足导致放置失败，即执行：根据S1中缓存的状态S
τ
重置当前环境，并终止放置；否则：把O
u
中所需的计算资源置零，即S8、智能体观察新的环境状态S
τ+1
；S9、当j＝|N
u
|时循环结束；S10、等待新的服务功能请求u+1。2.根据权利要求1所述的一种边缘计算中服务功能链放置的强化学习方法其特征在于：所述状态的定义包含基板网络和当前服务功能链请求的信息；其中，和分别表示节点n
i
剩余的存储和出口带宽资源：剩余的存储和出口带宽资源：对于每一个节点n
i
，剩余的类型为f的实例的计算资源可以被表示为，剩余的类型为f的实例的计算资源可以被表示为对于服务功能链请求u，有序的网络功能列表N
u
，所需的实例计算资源O
u
，请求持续时间δ
u
，流量y
u
，上次放置的节点目的地ψ
u
和吞吐量μ
u
都被放入到了状态中；其中，被用来表示网络功能f的one
‑
hot向量；即当布置任意一个状态S
τ
可以被表示为：
3.根据权利要求1所述的一种边缘计算中服务功能链放置的强化学习方法其特征在于：所述智能体是基于强化学习的A3C算法进行设计的，除了A3C本身的actor
‑
critic的神经网络结构之外，还加入了一组基于LSTM的服务队列网络，用来提取所需得网络功能随时间变化的分布；在每次完成网络功能的放置后，把O
u
中所需的计算资源置零，即之后，智能体再尝试放置直到服务链中的所有的虚拟化网络功能都被放置到了边缘网络之中。4.根据权利要求1所述的一种边缘计算中服务功能链放置的强化学习方法其特征在于：所述服务队列网络，包含一个队列记忆空间和一组LSTM神经网络。队列记忆空间的长度被定义为TD；所述服务队列网络，输入：当前状态S
τ
；输出：队列信息h
TD
；
具体流程算法如下；S1、从服务队列网络的记忆空间中，删除最后一层信息O
u
‑
T
D
；S2、从输入状态S
τ
中截取层信息O
u
；S3、把层信息O
u

【专利技术属性】
技术研发人员：贾维嘉，张嵩立，沈平，
申请(专利权)人：北京师范大学珠海校区，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人