【技术实现步骤摘要】
本申请属于无线通信,具体涉及一种强化学习模型的训练方法、电子设备及存储介质。
技术介绍
1、强化学习算法在互联网
被广泛使用,但在移动通信网络中的应用效果却并不理想。在相关技术中为了获取性能优秀的强化学习模型进行策略寻优,需要大量“试错”对模型进行优化,从而应用优化后的强化学习模型在应用场景下决策出预设范围内的最优策略。但在移动通信网络中试错的成本过高,并且优化模型过程所带来的模型性能的波动以及风险难以控制。
技术实现思路
1、本申请实施例提供一种强化学习模型的训练方法、电子设备及存储介质,能够解决移动通信网络实施成本过高的问题,并且减小了优化模型过程中的性能风险。
2、第一方面,提供了一种强化学习模型的训练方法,该方法包括:获取物理通信网络在多个目标时间的画像信息,其中,所述目标时间包括时间点或时间段,所述画像信息包括所述物理通信网络的描述信息;基于各个所述画像信息,分别获取在各个所述目标时间的数字孪生网络,其中,所述数字孪生网络采用数字的方式描述所述物理通信网络;基于
...【技术保护点】
1.一种强化学习模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于预设的至少一个候选策略,通过各个所述数字孪生网络,对目标强化学习模型进行第一训练,包括:
3.根据权利要求2所述的方法,其特征在于,将所述第一业务动作应用于数字孪生网络,根据所述数字孪生网络的变化情况,确定第一收益标签值,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述目标指标包括以下至少之一:小区无线资源控制RRC连接建立的成功率、演进的无线接入承载ERAB
...【技术特征摘要】
1.一种强化学习模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于预设的至少一个候选策略,通过各个所述数字孪生网络,对目标强化学习模型进行第一训练,包括:
3.根据权利要求2所述的方法,其特征在于,将所述第一业务动作应用于数字孪生网络,根据所述数字孪生网络的变化情况,确定第一收益标签值,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述目标指标包括以下至少之一:小区无线资源控制rrc连接建立的成功率、演进的无线接入承载erab建立的成功率、无线接通率、切换成功率、无线掉线率、erab掉线率。
6.根据权利要求1至4任一项所述的方法,其特征在于,
7.根据权利要求1所述的方法,其特征在于,在使用所述物理通信网络当前的网络状态,对经过第一训练后的所述目标强化学习模型进行第二训练之后,所述方法还...
【专利技术属性】
技术研发人员:曾召华,詹勇,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。