基于强化学习的动态多媒体数据部署方法技术

技术编号:35457735 阅读:27 留言:0更新日期:2022-11-03 12:19
本发明专利技术公开了一种基于强化学习的动态多媒体数据部署方法,包括:建立元学习模型,获取动态多媒体数据;元预训练过程:从动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列;对于不同的顺序对任务环境选取初始化模型参数;输入状态变量,产生动作和奖励后根据元学习模型的损失函数进行训练,得到动态元知识;在线元自适应过程:输入新的动态任务环境,用动态元知识进行模型初始化;在新任务环境上进行元学习模型的更新,进行动态元知识的泛化训练,得到新的模型和元知识。本发明专利技术能够在不断变化的视频流行度下,避免边缘内容缓存命中率因为动态请求模式导致的性能下降。存命中率因为动态请求模式导致的性能下降。存命中率因为动态请求模式导致的性能下降。

【技术实现步骤摘要】
基于强化学习的动态多媒体数据部署方法


[0001]本专利技术涉及多媒体数据部署
,尤其是涉及基于强化学习的动态多媒体数据部署方法。

技术介绍

[0002]近年来,我们见证了边缘辅助内容分发基础设施的快速发展和建设。视频流近年来实现了飞速增长。将内容复制和分发模块移动到互联网(或网络) 的边缘端有可能减轻骨干网的工作量并提高视频流用户的体验质量(QoE)。这种视频内容服务通常被称为边缘内容分发。尽管确切的名称在业界仍有争议,但边缘内容交付发生了根本性的变化。
[0003]随着视频平台的快速变革,与传统的相比,边缘服务器中的请求模式更加动态和分散。例如,对最著名的短视频共享平台之一的快手的测量研究表明,与传统视频相比,Kullback

Leibler(KL)散度测量的天数之间的内容请求模式差异增加了35.1%,从23.30到31.47基于共享平台。这表明内容流行度随时间变化很大,尤其是对于短视频平台。这主要是因为边缘缓存通常只专用于一小部分用户。
[0004]这种动态请求模式对边缘内容分发中现有的内容缓存方法提出了挑战: 1)具有先验假设的传统方案,包括最近最少使用(LRU)、最不常用(LFU)及其变体,都很难及时适应动态环境,因为它们基于简单的基于规则的策略和一些手动设置的参数特性。2)基于强化学习(RL)的缓存策略已被验证可实现比传统的基于规则的策略更高的命中率。然而,它们的设计假设是静态和平稳环境,而这种假设与当前内容模式的动态相矛盾,并且已经通过相关测量得到了说明。当应用于动态边缘内容分发时,无法保证这一假设,这通常会导致性能下降。一个可能的原因是动态请求模式会逐渐削弱静态假设,导致假设与现实世界的请求模式之间的差距越来越大。因此,过时的历史数据不断降低强化学习模型的实时性能。3)对基于强化学习的方法的改良研究,包括使用手动特征的方法和其他使用递归网络架构来提取动态特征的方法,仍然受到环境急剧变化的影响。

技术实现思路

[0005]本专利技术的目的在于解决在保证性能的情况下使边缘内容分发更快的适应边缘动态环境的问题,提供基于强化学习的动态多媒体数据部署方法。
[0006]本专利技术的技术问题通过以下的技术方案予以解决:
[0007]基于强化学习的动态多媒体数据部署方法,包括以下步骤:
[0008]S0、建立元学习模型,获取动态多媒体数据;
[0009]S1、元预训练过程:
[0010]S11、从所述动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列T1到 T
N+i

[0011]S12、对于不同的顺序对任务环境选取初始化模型参数;
[0012]S13、输入状态变量,产生动作和奖励后根据所述元学习模型的损失函数进行训
练,得到动态元知识;
[0013]S2、在线元自适应过程:
[0014]S21、输入新的动态任务环境T
N+i+1
,并用所述动态元知识进行模型初始化;
[0015]S22、在新任务环境上进行元学习模型的更新,同时进行动态元知识的泛化训练,得到新的模型和元知识。
[0016]在一些实施例中,步骤S1中,包括:使用历史请求序列联合更新模型元知识参数θ、和学习率α,以获得初始元知识。
[0017]在一些实施例中,步骤S12中,包括:使用从任务T
i
的模型参数θ适应得到的模型更新参数φ来收集任务T
i+1
的轨迹。
[0018]在一些实施例中,步骤S13中,包括:使用来自相邻时间序列的内容请求数据,进行基于元学习的双层优化训练,获得在前后相邻任务中的可转移信息。
[0019]在一些实施例中,步骤S13中所述元学习模型的损失函数由以下公式表示:
[0020][0021]其中,τ指由状态state
t
,动作action
t
,奖励R
t
,状态state
(t+1)
组成的轨迹,其中所采用的模型参数是φ,元知识参数为θ,学习率为α,任务环境是T
i
,1:K表示有K条轨迹,M表示更新的步数,P()表示轨迹服从概率P 的数据分布。
[0022]在一些实施例中,步骤S21中,包括:在元预训练过程提供了N天任务的初始元知识之后,将搜索新的元知识N+i天的新元知识θ,以便在遇到新的动态任务后仅在几个样本内达到更好的适应策略。
[0023]在一些实施例中,步骤S22中,包括:找到一些作为元知识的通用特征,并获得可转移的元知识θ,以帮助模型获得更好的适应规则;通过基于重新初始化的近端策略优化得到快速调整,该优化由在线获取的元知识控制。
[0024]在一些实施例中,步骤S22中,使用元学习模型的Regret函数进行动态元知识的泛化训练。
[0025]在一些实施例中,步骤S2中使用在线的方式更新元知识,并保持其长期影响进行在线元适应,刷新元知识,通过多步在线梯度下降更新元知识旨在找到一些通用特征,并获得可迁移的元知识以帮助智能体获得更好的适应规则。
[0026]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的基于强化学习的动态多媒体数据部署方法。
[0027]本专利技术具有如下有益效果:
[0028]本专利技术通过元预训练过程、在线元自适应过程捕捉动态变化的序列对元知识,以及保持元知识在线更新,更快地使模型适应边缘动态环境;同时由于避免了动态请求模式,从而使本专利技术能够在不断变化的视频流行度下,避免边缘内容缓存命中率因为动态请求模式导致的性能下降,进而更快地使模型适应边缘动态环境。
附图说明
[0029]图1是现有技术中基于强化学习(RL)的缓存策略示意图;
[0030]图2是本专利技术实施例中的基于在线元强化学习的动态多媒体数据部署方法流程图;
[0031]图3是本专利技术实施例中元预训练过程及在线元自适应过程示意图;
[0032]图4是本专利技术实施例中的基于在线元强化学习的动态多媒体数据部署方法示意图;
[0033]图5是实验例中现有技术在长视频平台动态环境下命中率变化的现象示意图;
[0034]图6是实验例中现有技术在在短视频平台动态环境下命中率变化的现象示意图;
[0035]图7是实验例中本专利技术实施例在长视频平台动态环境下命中率变化的现象示意图;
[0036]图8是实验例中本专利技术实施例在短视频平台动态环境下命中率变化的现象示意图。
具体实施方式
[0037]以下对本专利技术的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本专利技术的范围及其应用。
[0038]实施例
[0039]为解决在保证性能的情况下使边缘内容分发更快的适应边缘动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的动态多媒体数据部署方法,其特征在于,包括以下步骤:S0、建立元学习模型,获取动态多媒体数据;S1、元预训练过程:S11、从所述动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列T1到T
N+i
;S12、对于不同的顺序对任务环境选取初始化模型参数;S13、输入状态变量,产生动作和奖励后根据所述元学习模型的损失函数进行训练,得到动态元知识;S2、在线元自适应过程:S21、输入新的动态任务环境T
N+i+1
,并用所述动态元知识进行模型初始化;S22、在新任务环境上进行元学习模型的更新,同时进行动态元知识的泛化训练,得到新的模型和元知识。2.如权利要求1所述的基于强化学习的动态多媒体数据部署方法,其特征在于,步骤S1中,包括:使用历史请求序列联合更新模型元知识参数θ、和学习率α,以获得初始元知识。3.如权利要求1所述的基于强化学习的动态多媒体数据部署方法,其特征在于,步骤S12中,包括:使用从任务T
i
的模型参数θ适应得到的模型更新参数φ来收集任务T
i+1
的轨迹。4.如权利要求1所述的基于强化学习的动态多媒体数据部署方法,其特征在于,步骤S13中,包括:使用来自相邻时间序列的内容请求数据,进行基于元学习的双层优化训练,获得在前后相邻任务中的可转移信息。5.如权利要求1所述的基于强化学习的动态多媒体数据部署方法,其特征在于,步骤S13中所述元学习模型的损失函数由以下公式表示:S13中所述元学习模型的损失函数由以下公式表示:其中,τ指由状态state

【专利技术属性】
技术研发人员:毛忆南周仕佶路荣伟王智朱文武
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1