强化学习模型的训练方法、能耗确定方法和装置制造方法及图纸

技术编号:35910170 阅读:24 留言:0更新日期:2022-12-10 10:49
本公开提供了一种强化学习模型的训练方法、能耗确定方法和装置,涉及人工智能领域,具体为强化学习、深度学习、物联网等技术领域,适用于能耗预测场景。强化学习模型的训练方法包括:将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与多个目标模型相关联的权重;利用待训练的强化学习模型的第二子模型,基于权重确定用于评价第一子模型的评价值;基于评价值,调整第一子模型的模型参数和第二子模型的模型参数,得到经训练的强化学习模型。得到经训练的强化学习模型。得到经训练的强化学习模型。

【技术实现步骤摘要】
强化学习模型的训练方法、能耗确定方法和装置


[0001]本公开涉及人工智能领域,具体为强化学习、深度学习、物联网等
,适用于能耗预测场景。

技术介绍

[0002]在一些场景下,需要预测工业设备的能耗数据,以便基于能耗数据得知工业设备的运行情况或进行能耗调度。但是,相关技术在预测能耗数据时,依赖人工经验,导致预测成本高、扩展性和通用性较差。

技术实现思路

[0003]本公开提供了一种强化学习模型的训练方法、能耗确定方法、装置、电子设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种强化学习模型的训练方法,包括:将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。
[0005]根据本公开的另一方面,提供了一种能耗确定方法,包括:将历史能耗数据输入目标模型中,输出能耗确定值;利用强化学习模型确定与所述目标模型相关联的权重;基于所述权重和能耗确定值,确定能耗加权值,其中,所述强化学习模型是利用上述的强化学习模型的训练方法得到的。
[0006]根据本公开的另一方面,提供了一种强化学习模型的训练装置,包括:输入输出模块、第一确定模块以及调整模块。输入输出模块,用于将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;第一确定模块,用于利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;调整模块,用于基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。
[0007]根据本公开的另一方面,提供了一种能耗确定装置,包括:输入输出模块、第一确定模块和第二确定模块。输入输出模块,用于将历史能耗数据输入目标模型中,输出能耗确定值;第一确定模块,用于利用强化学习模型确定与所述目标模型相关联的权重;第二确定模块,用于基于所述权重和能耗确定值,确定能耗加权值,其中,所述强化学习模型是利用上述的强化学习模型的训练装置得到的。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的强化学习模型的训练方法和能耗确定方法中的至少一个。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机指令用于使所述计算机执行上述的强化学习模型的训练方法和能耗确定方法中的至少一个。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令被处理器执行时实现上述强化学习模型的训练方法的步骤和和能耗确定方法的步骤中的至少一个。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1示意性示出了根据本公开一实施例的强化学习模型的训练方法的流程图;
[0014]图2示意性示出了根据本公开一实施例的强化学习模型的训练方法的原理图;
[0015]图3示意性示出了根据本公开一实施例的能耗确定方法的流程图;
[0016]图4示意性示出了根据本公开一实施例的能耗确定方法的示意图;
[0017]图5示意性示出了根据本公开一实施例的目标模型预测精度的示意图;
[0018]图6示意性示出了根据本公开另一实施例的目标模型预测精度的示意图;
[0019]图7示意性示出了根据本公开一实施例的数据链路的示意图;
[0020]图8示意性示出了根据本公开一实施例的强化学习模型的训练装置的框图;
[0021]图9示意性示出了根据本公开一实施例的能耗确定装置的框图;以及
[0022]图10是用来实现本公开实施例的用于执行强化学习模型的训练方法和能耗确定方法中的至少一个的电子设备的框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/ 或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0025]在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0026]在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或
具有A、 B、C的系统等)。
[0027]利用物联网、大数据与人工智能等先进技术进行节能减排,已经成为企业高质量发展转型的必然选择。物联网技术的不断发展为重工业、农业、房地产等传统行业的能源生产、能耗采集、能耗监控以及能耗管理提供了先决条件。例如,在边云融合的物联网中,边缘端的传感器能够实时采集工业现场的能耗数据并上传至云端的数据库中。同时,云端的控制系统基于边缘端的数据,通过云端大数据建模和计算,可以实时预测未来所生产或所需的能耗,提前对边缘端的控制设备进行调节,或者调度配置相关的能耗资源,比如电量、碳排放量等。
[0028]一些能耗预测方法主要通过专家经验进行人工预测,预测成本高昂,而且难以有效利用大量的测点数据,并且监控和预测方法不具备扩展性和通用性。
[0029]基于机器学习或深度学习的预测模型,虽然具备一定的通用性,但是机器学习或深度学习作为数据驱动的模型,对于数据质量以及数据分布较为敏感。在生产过程中,可能由于数据量过大而造成数据链路阻塞,造成消息堆积,影响数据采集的质量,从而影响预测模型的精度。当实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型的训练方法,包括:将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;以及基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。2.根据权利要求1所述的方法,在利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值之前,所述方法还包括:基于所述权重和能耗确定值,确定能耗加权值,其中,所述能耗确定值是利用所述多个目标模型基于所述历史能耗数据得到的;以及基于所述能耗加权值和能耗参考值,确定与所述第一子模型相关联的奖赏值。3.根据权利要求2所述的方法,其中,所述利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值包括:将所述历史能耗数据、所述模型能力数据、所述能耗加权值、所述权重和所述奖赏值,确定为训练样本;以及将所述训练样本输入所述第二子模型,输出所述评价值。4.根据权利要求3所述的方法,其中,所述将所述训练样本输入所述第二子模型,输出所述评价值包括:基于所述奖赏值,对所述训练样本进行分组;根据与所述分组相关联的抽取比例,从所述分组中抽取第一目标训练样本;以及将所述第一目标训练样本输入所述第二子模型,输出所述评价值。5.根据权利要求4所述的方法,其中,所述训练样本包括M个训练样本,M为大于0的整数;所述基于所述奖赏值,对所述训练样本进行分组包括:从所述M个训练样本中确定第二目标训练样本,并将所述第二目标训练样本划分至第一分组,其中,所述第二目标训练样本对应的所述奖赏值小于预设奖赏值;以及将所述M个训练样本划分至第二分组。6.根据权利要求2

5中任意一项所述的方法,还包括:基于所述能耗确定值和所述能耗参考值,确定所述多个目标模型的数据处理误差;基于所述数据处理误差对所述多个目标模型进行排序,得到排序结果;以及将所述排序结果,确定为所述模型能力数据。7.根据权利要求1

5中任意一项所述的方法,其中,所述第一子模型包括嵌入层、编码层、激活层;所述将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重包括:将所述历史能耗数据和所述模型能力数据,输入所述嵌入层,输出拼接数据;将所述拼接数据输入所述编码层,输出特征数据;以及将所述特征数据输入所述激活层,输出所述权重。8.根据权利要求1

5中任意一项所述的方法,其中,所述基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型包括:
基于所述评价值,确定与所述第一子模型相关联的第一损失值;基于所述评价值,确定与所述第二子模型相关联的第二损失值;基于所述第一损失值,调整所述第一子模型的模型参数;以及基于所述第二损失值,调整所述第二子模型的模型参数。9.根据权利要求1

5中任意一项所述的方法,其中,所述多个目标模型的输入特征包括目标特征,所述目标特征是通过所述多个目标模型中的任意一个目标模型得到的。10.一种能耗确定方法,包括:将历史能耗数据输入目标模型中,输出能耗确定值;利用强化学习模型确定与所述目标模型相关联的权重;以及基于所述权重和能耗确定值,确定能耗加权值,其中,所述强化学习模型是利用根据权利要求1

9中任意一项所述的方法得到的。11.根据权利要求10所述的方法,其中,所述利用强化学习模型确定与所述目标模型相关联的权重包括:利用所述强化学习模型的第一子模型,确定所述权重。12.一种强化学习模型的训练装置,包括:输入输出模块,用于将历史能耗数据和多个目标模型的模型能力数据,输入待训练的强化学习模型的第一子模型,输出与所述多个目标模型相关联的权重;第一确定模块,用于利用所述待训练的强化学习模型的第二子模型,基于所述权重确定用于评价所述第一子模型的评价值;以及调整模块,用于基于所述评价值,调整所述第一子模型的模型参数和所述第二子模型的模型参数,得到经训练的强化学习模型。13.根据权利要...

【专利技术属性】
技术研发人员:闻雅兰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1