【技术实现步骤摘要】
一种基于深度强化学习的边缘计算主动服务方法及系统
[0001]本专利技术涉及一种基于深度强化学习的边缘计算主动服务系统及方法,属于用户边缘计算
技术介绍
[0002]使用边缘计算的用户(如AR用户、入侵检测终端设备)在与边缘节点的交互过程中,边缘节点可以根据用户的负载情况提供主动的边缘服务,从而增加用户体验,例如计算卸载、边缘缓存服务等等。如果可以提前预判到用户的性能瓶颈,则能够根据用户的使用信息,主动为用户进行服务,提升用户体验。预判用户负载情况并进行主动服务可以有效提升用户的满意度,现有的方法主要有以下几种:
[0003]1)基于人工规则配置,根据用户偏好、历史负载等,可以人工的配置相关规则,预判用户资源需求,例如针对喜欢看电影的用户,可以提前部署视频资源;对于喜欢玩游戏的用户,可以预分配较多的计算资源。
[0004]人工规则配置存在的问题:
[0005]a)需要专家领域知识,需要大量人工参与;
[0006]b)用户的资源需求可能多变复杂,需要逐步的进行配置;
[0007 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的边缘计算主动服务方法,其特征在于,包括以下步骤:1)提取用户特征信息,特征信息包括用户画像、用户在设定期间内的应用负载、用户位置,同时提取用户意图分类;2)通过深度神经网络预训练意图预判模型,所述意图预判模型为多分类神经网络模型,意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置,意图预判模型的输出为经过归一化指数函数softmax的多分类用户意图概率,然后利用交叉熵损失函数优化意图预判模型,训练后的意图预判模型输出为当前的意图的类别,同时将训练后的意图预判模型的倒数第二层作为表示向量,建立DDPG模型;3)通过线上探索对DDPG模型进行优化;4)设定强化学习的奖赏函数,如果用户使用其中一个意图对应的服务,则奖赏值为1,否则奖赏值为0;主动服务系统在与用户交互过程中,根据奖赏值对用户资源请求进行预判,选择使得critic估值函数最大的动作,即提供相应的服务。2.根据权利要求1所述的基于深度强化学习的边缘计算主动服务方法,其特征在于,还包括:5)当有用户新增需求时,保持步骤2)中的深度神经网络不变,修改步骤3)中actor网络输出和critic网络的输入,对新的意图进行动态的探索,提升用户点击率。3.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法,其特征在于,在步骤3)中,具体步骤为:31)通过强化学习DDPG算法实现强化学习,其中actor网络以步骤2)获得的表示向量作为输入,DDPG算法输出向用户提供的存储或计算服务;32)critic网络通过表示向量和展示的问题预测进行服务后的长期收益并通过时序差分误差进行优化,其中,Q代表critic网络,s为当前的环境状态,a为选取的服务动作,w为critic网络的参数;s',a'分别为下一时刻的状态和动作,r为奖赏函数,γ为折扣因子;L(w)表示优化值,E[.]为期望值,a
′
是使critic网络Q(s
′
,a
′
,w)最大的值;33)DDPG算法通过噪声函数OUNoise进行动态探索。4.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法,其特征在于,所述DDPG模型的具体工作步骤为:1)根据策略函数向...
【专利技术属性】
技术研发人员:缪巍巍,张明轩,曾锃,黄进,张瑞,张震,李世豪,滕昌志,
申请(专利权)人:国网江苏省电力有限公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。