基于强化学习的动态多媒体数据部署方法技术

技术编号：35457735 阅读：27 留言：0更新日期：2022-11-03 12:19

本发明专利技术公开了一种基于强化学习的动态多媒体数据部署方法，包括：建立元学习模型，获取动态多媒体数据；元预训练过程:从动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列；对于不同的顺序对任务环境选取初始化模型参数；输入状态变量，产生动作和奖励后根据元学习模型的损失函数进行训练，得到动态元知识；在线元自适应过程：输入新的动态任务环境，用动态元知识进行模型初始化；在新任务环境上进行元学习模型的更新，进行动态元知识的泛化训练，得到新的模型和元知识。本发明专利技术能够在不断变化的视频流行度下，避免边缘内容缓存命中率因为动态请求模式导致的性能下降。存命中率因为动态请求模式导致的性能下降。存命中率因为动态请求模式导致的性能下降。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的动态多媒体数据部署方法

[0001]本专利技术涉及多媒体数据部署
，尤其是涉及基于强化学习的动态多媒体数据部署方法。

技术介绍

[0002]近年来，我们见证了边缘辅助内容分发基础设施的快速发展和建设。视频流近年来实现了飞速增长。将内容复制和分发模块移动到互联网(或网络) 的边缘端有可能减轻骨干网的工作量并提高视频流用户的体验质量(QoE)。这种视频内容服务通常被称为边缘内容分发。尽管确切的名称在业界仍有争议，但边缘内容交付发生了根本性的变化。
[0003]随着视频平台的快速变革，与传统的相比，边缘服务器中的请求模式更加动态和分散。例如，对最著名的短视频共享平台之一的快手的测量研究表明，与传统视频相比，Kullback
‑
Leibler(KL)散度测量的天数之间的内容请求模式差异增加了35.1％，从23.30到31.47基于共享平台。这表明内容流行度随时间变化很大，尤其是对于短视频平台。这主要是因为边缘缓存通常只专用于一小部分用户。
[0004]这种动态请求模式对边缘内容分发中现有的内容缓存方法提出了挑战： 1)具有先验假设的传统方案，包括最近最少使用(LRU)、最不常用(LFU)及其变体，都很难及时适应动态环境，因为它们基于简单的基于规则的策略和一些手动设置的参数特性。2)基于强化学习(RL)的缓存策略已被验证可实现比传统的基于规则的策略更高的命中率。然而，它们的设计假设是静态和平稳环境，而这种假设与当前内容模式的动态相矛盾，并且已经通过相关测量得到了说明。当应用...

【技术保护点】

【技术特征摘要】
1.基于强化学习的动态多媒体数据部署方法，其特征在于，包括以下步骤：S0、建立元学习模型，获取动态多媒体数据；S1、元预训练过程:S11、从所述动态多媒体数据中选取要进行元预训练的天数N、用来进行在线元自适应的天数i、要进行动态适应的任务环境序列T1到T
N+i
；S12、对于不同的顺序对任务环境选取初始化模型参数；S13、输入状态变量，产生动作和奖励后根据所述元学习模型的损失函数进行训练，得到动态元知识；S2、在线元自适应过程：S21、输入新的动态任务环境T
N+i+1
，并用所述动态元知识进行模型初始化；S22、在新任务环境上进行元学习模型的更新，同时进行动态元知识的泛化训练，得到新的模型和元知识。2.如权利要求1所述的基于强化学习的动态多媒体数据部署方法，其特征在于，步骤S1中，包括：使用历史请求序列联合更新模型元知识参数θ、和学习率α，以获得初始元知识。3.如权利要求1所述的基于强化学习的动态多媒体数据部署方法，其特征在于，步骤S12中，包括：使用从任务T
i
的模型参数θ适应得到的模型更新参数φ来收集任务T
i+1
的轨迹。4.如权利要求1所述的基于强化学习的动态多媒体数据部署方法，其特征在于，步骤S13中，包括：使用来自相邻时间序列的内容请求数据，进行基于元学习的双层优化训练，获得在前后相邻任务中的可转移信息。5.如权利要求1所述的基于强化学习的动态多媒体数据部署方法，其特征在于，步骤S13中所述元学习模型的损失函数由以下公式表示：S13中所述元学习模型的损失函数由以下公式表示：其中，τ指由状态state

【专利技术属性】
技术研发人员：毛忆南，周仕佶，路荣伟，王智，朱文武，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人