【技术实现步骤摘要】
强化学习模型的训练方法、能耗确定方法和装置
[0001]本公开涉及人工智能领域,具体为强化学习、深度学习、物联网等
,适用于能耗预测场景。
技术介绍
[0002]在一些场景下,需要预测工业设备的能耗数据,以便基于能耗数据得知工业设备的运行情况或进行能耗调度。但是,相关技术在预测能耗数据时,依赖人工经验,导致预测成本高、扩展性和通用性较差。
技术实现思路
[0003]本公开提供了一种强化学习模型的训练方法、能耗确定方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种强化学习模型的训练方法,包括:将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。
[0005]根据本公开的另一方面,提供了一种能耗确定方法,包括:将历史能耗数据输入目标模型中,输出能耗确定值;利用强化学习模型确定与所述目标模型相关联的权重;基于所述权重和能耗确定值,确定能耗加权值,其中,所述强化学习模型是利用上述的强化学习模型的训练方法得到的。
[0006]根据本公开的另一方面,提供了一种强化学习模型的训练装置,包括:输入输出模块、第一确定模块以及调整模块。输入输出模块,用于将历史能耗数据和多个目标模型的模型能力数据,输入待训 ...
【技术保护点】
【技术特征摘要】
1.一种强化学习模型的训练方法,包括:将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;以及基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。2.根据权利要求1所述的方法,在利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值之前,所述方法还包括:基于所述权重和能耗确定值,确定能耗加权值,其中,所述能耗确定值是利用所述多个目标模型基于所述历史能耗数据得到的;以及基于所述能耗加权值和能耗参考值,确定与所述第一子模型相关联的奖赏值。3.根据权利要求2所述的方法,其中,所述利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值包括:将所述历史能耗数据、所述模型能力数据、所述能耗加权值、所述权重和所述奖赏值,确定为训练样本;以及将所述训练样本输入所述第二子模型,输出所述评价值。4.根据权利要求3所述的方法,其中,所述将所述训练样本输入所述第二子模型,输出所述评价值包括:基于所述奖赏值,对所述训练样本进行分组;根据与所述分组相关联的抽取比例,从所述分组中抽取第一目标训练样本;以及将所述第一目标训练样本输入所述第二子模型,输出所述评价值。5.根据权利要求4所述的方法,其中,所述训练样本包括M个训练样本,M为大于0的整数;所述基于所述奖赏值,对所述训练样本进行分组包括:从所述M个训练样本中确定第二目标训练样本,并将所述第二目标训练样本划分至第一分组,其中,所述第二目标训练样本对应的所述奖赏值小于预设奖赏值;以及将所述M个训练样本划分至第二分组。6.根据权利要求2
‑
5中任意一项所述的方法,还包括:基于所述能耗确定值和所述能耗参考值,确定所述多个目标模型的数据处理误差;基于所述数据处理误差对所述多个目标模型进行排序,得到排序结果;以及将所述排序结果,确定为所述模型能力数据。7.根据权利要求1
‑
5中任意一项所述的方法,其中,所述第一子模型包括嵌入层、编码层、激活层;所述将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重包括:将所述历史能耗数据和所述模型能力数据,输入所述嵌入层,输出拼接数据;将所述拼接数据输入所述编码层,输出特征数据;以及将所述特征数据输入所述激活层,输出所述权重。8.根据权利要求1
‑
5中任意一项所述的方法,其中,所述基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型包括:
基于所述评价值,确定与所述第一子模型相关联的第一损失值;基于所述评价值,确定与所述第二子模型相关联的第二损失值;基于所述第一损失值,调整所述第一子模型的模型参数;以及基于所述第二损失值,调整所述第二子模型的模型参数。9.根据权利要求1
‑
5中任意一项所述的方法,其中,所述多个目标模型的输入特征包括目标特征,所述目标特征是通过所述多个目标模型中的任意一个目标模型得到的。10.一种能耗确定方法,包括:将历史能耗数据输入目标模型中,输出能耗确定值;利用强化学习模型确定与所述目标模型相关联的权重;以及基于所述权重和能耗确定值,确定能耗加权值,其中,所述强化学习模型是利用根据权利要求1
‑
9中任意一项所述的方法得到的。11.根据权利要求10所述的方法,其中,所述利用强化学习模型确定与所述目标模型相关联的权重包括:利用所述强化学习模型的第一子模型,确定所述权重。12.一种强化学习模型的训练装置,包括:输入输出模块,用于将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;第一确定模块,用于利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;以及调整模块,用于基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。13.根据权利要...
【专利技术属性】
技术研发人员:闻雅兰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。