模型训练方法、策略生成方法、装置、电子设备及介质制造方法及图纸

技术编号：44551024 阅读：14 留言：0更新日期：2025-03-11 14:14

本申请实施例提供了一种模型训练方法、策略生成方法、装置、电子设备及介质，涉及数据处理技术领域，该方法包括：生成样本经验，其中样本经验包括：第一状态、经验动作、经验回报和第二状态。然后利用估计神经网络确定在第一状态下执行经验动作后的估计奖励值，以及从目标神经网络确定在第二状态下执行每种动作后得到的奖励值中筛选出最高奖励值。基于估计奖励值、最高奖励值和经验回报，确定损失函数值，并基于损失函数值更新估计神经网络的网络参数，返回生成样本经验的步骤，直至估计神经网络收敛时，将当前的估计神经网络作为策略生成模型。降低了移动通信系统中由边缘缓存策略造成的资源浪费。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别是涉及一种模型训练方法、策略生成方法、装置、电子设备及介质。

技术介绍

1、在移动通信网络中，边缘缓存技术能够在移动网络无线接入网侧，即基站，部署智能高速缓存，从而将服务器中的部分内容缓存在基站中，当用户设备(user equipment，ue)需要获取内容时，如果与该ue连接的基站缓存有该内容，则该基站可以直接将该内容传输给该ue。可见边缘缓存技术可以减少内容重复传输，缓解基站回程链路的压力，提高对用户请求的响应速度，提升了用户体验。

2、目前，在确定边缘缓存策略时，一般仅考虑内容的热度，即，在各基站中缓存服务器中请求量较大的内容，但该方式忽略了不同用户的内容偏好差异，使得基站中存储的内容的实际利用率低，在移动通信系统中造成巨大的资源浪费。

技术实现思路

1、本申请实施例的目的在于提供一种模型训练方法、策略生成方法、装置、电子设备及介质，以实现降低移动通信系统中由边缘缓存策略造成的资源浪费。具体技术方案如下：

2、第一方面，本申请实施例提供...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述内容缓存策略表示各基站缓存的内容的编码层，每个编码层为对内容采用可伸缩视频编码技术进行编码后得到的一个编码层，每个编码层对应内容的一种质量版本，所述经验回报通过以下步骤确定：

3.根据权利要求1所述的方法，其特征在于，所述经验动作通过以下步骤确定：

4.根据权利要求3所述的方法，其特征在于，所述内容缓存策略表示每个基站缓存的内容的编码层，每个编码层为对内容采用可伸缩视频编码技术进行编码后得到的一个编码层，每个编码层对应内容的一种质量版本，所述基于所述第一状态...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述经验动作通过以下步骤确定：

4.根据权利要求3所述的方法，其特征在于，所述内容缓存策略表示每个基站缓存的内容的编码层，每个编码层为对内容采用可伸缩视频编码技术进行编码后得到的一个编码层，每个编码层对应内容的一种质量版本，所述基于所述第一状态，采用线性近似方法生成所述经验动作，包括：

5.根据权利要求4所述的方法，其特征在于，所述估计奖励值包括：在所述第一状态下，每个基站按照所述内容缓存策略缓存内容的编码层的缓存估计奖励值，每个基站按照所述内容推荐策略推荐内容的质量版本的推荐估计奖励值，每个终端按照用户调度策略连接基站的调度估计奖励值；所述基于所述估计奖励值、所述最高奖励值和所述经验回报，确定损失函数值，包括：

6.一种策略生成方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述各奖励值包括：在所述待分析状态下，在每个基站中缓存每个内容的每个编码层的第二缓存奖励值，每个基站推荐每个内容的每种质量版本的第二推荐奖励值，每个终端连接每个基站的第二调度奖励值；所述基于各奖励值，确定待执行动作，包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特...

【专利技术属性】
技术研发人员：谢俊峰，候婉琪，陈友兴，
申请(专利权)人：中北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人