【技术实现步骤摘要】
模型训练方法、信息推荐方法及装置、介质、电子设备
[0001]本公开实施例涉及计算机
,具体而言,涉及一种模型训练方法
、
信息推荐方法
、
模型训练装置
、
信息推荐装置
、
计算机可读存储介质以及电子设备
。
技术介绍
[0002]目前,随着硬件和软件的不断发展,用户使用流量的场景呈现多样化的发展趋势
。
在不同的场景下,用户对于流量有不同的需求
。
因此,需要精准识别用户当前的流量需求,从而给用户推荐对应的流量套餐,以及为用户提供更加合适的服务
。
[0003]相关技术中,一般采用中心式机器学习框架来进行流量推荐
。
但是上除方式中,运营商用户数量较多,将训练数据传输至运营商数据中心会消耗大量网络资源,因此处理效率较差
。
由于需要将所有的用户信息上传至服务器,无法保护用户隐私,安全性较差
。
技术实现思路
[0004]本公开的目的在于提供
【技术保护点】
【技术特征摘要】
1.
一种模型训练方法,其特征在于,包括:获取强化学习模型,对强化学习模型进行训练并将训练后的强化学习模型发送至云端服务器,以得到最新的强化学习模型;根据最新的强化学习模型对用户的流量使用状态进行拟合得到输出动作,并基于所述流量使用状态
、
所述输出动作
、
所述输出动作对应的反馈结果以及下一流量使用状态生成样本数据;利用所述样本数据对最新的强化学习模型进行迭代联邦学习,直至模型收敛为止,以得到用于确定信息推荐建议的目标强化学习模型
。2.
根据权利要求1所述的模型训练方法,其特征在于,所述对强化学习模型进行训练并将训练后的强化学习模型发送至云端服务器,以得到最新的强化学习模型,包括:基于客户端对强化学习模型进行训练,并将训练后的强化学习模型的模型参数发送至云端服务器;获取通过云端服务器对训练后的强化学习模型进行融合得到的全局模型,并基于所述全局模型进行训练,以得到各客户端对应的最新的强化学习模型
。3.
根据权利要求2所述的模型训练方法,其特征在于,所述基于客户端对强化学习模型进行训练,包括:将历史时隙对应的历史流量使用状态输入至强化学习模型,得到历史流量使用状态对应的输出动作,以及下一流量使用状态;确定历史流量使用状态对应的输出动作的奖励,并根据所述奖励对强化学习模型的参数进行调整
。4.
根据权利要求1所述的模型训练方法,其特征在于,所述基于所述流量使用状态
、
所述输出动作
、
所述输出动作对应的反馈结果以及下一流量使用状态生成样本数据,包括:根据所述反馈结果以及成本信息确定奖励,并确定下一流量使用状态;将所述流量使用状态
、
输出动作
、
所述奖励以及所述下一流量使用状态存入客户端的样本池,以作为客户端的样本数据
。5.
根据权利要求1所述的模型训练方法,其特征在于,所述利用所述样本数据对最新的强化学习模型进行迭代联邦学习,直至模型收敛为止,以确定目标强化学习模型,包括:若所述样本数据的数量大于预设值,确定参与联邦学习的候选客户端;基于所述候选客户端进行全局联邦学习,并继续选择参与联邦学习的候选客户端以得到重新选择的候选客户端,基于所述重新选择的候选客户端实现多轮迭代全局联邦学习,以得到最新的全局模型;根据所述最新的全局模型的收敛性进行模型训练
。6.
根据权利要求5所述的模型训练方法,其特征在于...
【专利技术属性】
技术研发人员:凌笑铃,史萌,池炜成,张金娟,李忠航,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。