用于热控制的机器学习装置、系统和方法制造方法及图纸

技术编号:21627009 阅读:37 留言:0更新日期:2019-07-17 10:30
本发明专利技术提供了用于热控制的机器学习装置、系统和方法。机器学习装置包括状态观察模块和强化学习模块。状态观察模块被配置为接收与电子设备的热条件相关联的一个或多个状态变量。该一个或多个状态变量以图形形式呈现。强化学习模块被配置为基于奖赏和该一个或多个状态变量来更新动作值表。机器学习装置、系统和方法为电子设备提供改进的热控制策略。

Machine learning devices, systems and methods for thermal control

【技术实现步骤摘要】
用于热控制的机器学习装置、系统和方法
本专利技术一般性地涉及用于电子设备的热控制,更具体地,涉及用于电子设备的热控制的机器学习装置、系统和方法。
技术介绍
诸如计算机的电子设备包括许多电子组件(例如,存储器、处理器等)。随着电子设备复杂性的不断增加和尺寸的小型化,它们的组件耗散增加的热能,这可能降低电子设备的可靠性和寿命。因此,电子设备通常包括具有一个或多个用于热控制的风扇的冷却系统。比例-积分-微分(PID)控制器是电子设备的热控制系统中广泛使用的控制回路反馈机制。PID参数或系数根据操作风扇速度自适应地调节。然而,这种传统方案在多个方面存在缺陷。例如,必须针对一个风扇系统调整PID参数,而这种调整过程是耗时的。已调整的PID参数不能转移到其他风扇系统。也就是说,需要针对每个风扇系统分别调整PID参数。此外,由于温度和风扇速度之间的高非线性,这种传统方案受到风扇速度振荡问题的影响。
技术实现思路
本专利技术提供用于针对电子设备建立热控制策略的机器学习装置、系统和方法,以克服如上所述的一个或多个现有技术问题。根据示例性实施例的一个方面,提供了一种用于针对电子设备建立热控制策略的机器学习装置。机器学习装置包括状态观察模块和强化学习模块。状态观察模块被配置为接收与电子设备的热条件相关联的一个或多个状态变量。该一个或多个状态变量以图形形式呈现。强化学习模块被配置为基于奖赏和该一个或多个状态变量来更新动作值表。根据示例性实施例的另一方面,提供了一种用于针对电子设备建立热控制策略的机器学习系统。该系统包括机器学习装置、温度测量模块、功率测量模块和信号测量模块。机器学习装置包括状态观察模块和强化学习模块。强化学习模块被配置为基于根据与电子设备的热条件相关联的一个或多个状态变量生成的奖赏来更新动作值表。一个或多个状态变量以图形形式呈现在图形中,并且该一个或多个状态变量在图形中的相对位置能够被识别和提取。温度测量模块被配置为测量电子设备的处理器的温度。功率测量模块被配置为测量由电子设备消耗的功率。信号测量模块被配置为测量电子设备的风扇的脉冲宽度调制(PWM)信号的占空比。根据示例性实施例的另一方面,提供了一种用于针对电子设备建立热控制策略的机器学习方法。该方法提供与电子设备的热条件相关联的一个或多个状态变量,基于该一个或多个状态变量生成奖赏,并基于奖赏和该一个或多个状态变量更新动作值表。该一个或多个状态变量以图形形式呈现在图中。根据示例性实施例的机器学习装置、系统和方法为电子设备提供改进的热控制策略,并且具有以下优点中的一个或多个:与调节PID参数相比消耗更少的时间、更多的灵活性和可转移性、易于维护和扩展、快速收敛、缓和甚至消除风扇振荡问题。以下将讨论更多示例性实施例和技术效果。附图说明现在将参考附图以示例的方式描述本专利技术的实施例,其中:图1示出根据示例性实施例的用于针对电子设备建立热控制策略的机器学习装置。图2示出根据示例性实施例的图形形式的状态变量。图3示出根据示例性实施例的用于调节电子设备的风扇的脉冲宽度调制(PWM)信号的占空比的动作。图4示出根据示例性实施例的用于针对电子设备建立热控制策略的机器学习系统。图5示出根据示例性实施例的用于针对电子设备建立热控制策略的机器学习方法。图6示出根据示例性实施例的自我训练过程。图7示出通过结合DNQ模型和图6的瞬态模型以利用风扇速度控制的CPU温度的行为的仿真。图8A示出根据示例性实施例的通过图6的瞬态模型完成8小时自我训练之后CPU温度的行为的仿真。图8B示出根据示例性实施例的通过图6的瞬态模型完成24小时自我训练之后CPU温度的行为的仿真。图9是示出图4的机器学习系统的示例性操作的流程图。具体实施方式图1示出用于针对电子设备60建立热控制策略的机器学习装置10。机器学习装置10包括状态观察模块12和强化学习(RL)模块14。状态观察模块12接收与电子设备60(例如计算机)的热条件相关联的一个或多个状态变量40。RL模块14基于奖赏(reward)和状态变量40更新动作值表。热条件表征电子设备60的内部温度和散热以及电子设备60操作的环境条件。状态变量40具有至少部分地反映热条件的值。如图2所示,状态变量40包括环境温度41、由电子设备60的处理器消耗的功率42、用于电子设备60的风扇的脉冲宽度调制(PWM)信号的占空比43、电子设备60的处理器的温度44。状态变量40以图形形式呈现。状态变量40被示为点。这些状态变量40的值由图形中这些点的位置或相对位置表示。它们可以由状态观察模块12识别和提取以进行处理。也就是说,该图形用作机器学习过程的输入,并且这些点的相对位置可以由状态观察模块12观察或接收,然后传送到RL模块14。尽管在图2中示出了四个状态变量41、42、43和44,状态变量40不一定包括所有四个状态变量。而是,状态变量40可以包括四个状态变量中的一个或多个。备选地,状态变量40可包括多于四个状态变量。在那种情况下,状态变量仍然在图形中呈现,只是状态变量之间的相互作用(例如,相对位置)更复杂。以图形形式呈现状态变量是有利的。图形用作输入,更具体地,图形中的状态变量的相对位置被识别并被读取以进行处理。与使用数值作为输入相比,使用图形形式作为输入降低了算法复杂度并节省了计算时间。此外,状态变量的图形表示使机器学习方法更具可转移性和可扩展性。由于不存在从一个系统到另一个系统不同的数学方程式,所以根据示例性实施例的机器学习方法可以在基本上不需要修改执行算法或代码的情况下,应用于不同的电子系统。响应于状态变量40的观察结果,RL模块14生成奖赏。取决于图形中状态变量40的相对位置,奖赏可以是正值或负值或零。由此,奖赏指示状态变量40的当前值是否是有利的。基于奖赏和状态变量40,RL模块14更新动作值表。动作值表可以是风扇值表,其指示下一动作中电子设备60的风扇的PWM信号的占空比的增加或减少。例如,图3中的图表30示出了七个可选动作:0、+2%、-2%、+5%、-5%、+9%和-9%。0表示占空比在下一动作中保持不变,而+2%表示占空比在下一动作中将增加2%。可以从由这七个动作组成的组中选择占空比的增加或减少。例如,当电子设备60的处理器的温度高时,这表明当前状态不利,RL模块14生成负的奖赏。相应地,可以更新动作值表以将占空比增加+5%,使得风扇旋转得更快以降低温度。尽管图3示出了七个可选动作,但是根据实际需要可以采取更多动作或更少动作。图4示出用于针对电子设备60建立热控制策略的机器学习系统100。电子设备60包括处理器62(例如中央处理单元(CPU)、图形处理单元(GPU)、等等)、风扇64、以及被配置成驱动风扇64以冷却处理器62的风扇电机66。风扇64可以表示设置在电子设备60内部的一个或多个风扇。系统100包括温度测量模块22、功率测量模块24和信号测量模块26。温度测量模块22(例如设置在处理器62的插口内的温度传感器)配置为测量处理器62的温度。功率测量模块24(例如设置在处理器62的插口内的功率计传感器)配置为测量由处理器62消耗的功率。信号测量模块26(例如配置在硬件(例如处理器)内部的一个或多个端口引脚控制定时器或计数器)配置为获得风扇62的P本文档来自技高网...

【技术保护点】
1.一种用于针对电子设备建立热控制策略的机器学习装置,包括:状态观察模块,其被配置为接收与所述电子设备的热条件相关联的一个或多个状态变量,所述一个或多个状态变量以图形形式呈现;以及强化学习模块,其被配置为基于奖赏和所述一个或多个状态变量来更新动作值表。

【技术特征摘要】
1.一种用于针对电子设备建立热控制策略的机器学习装置,包括:状态观察模块,其被配置为接收与所述电子设备的热条件相关联的一个或多个状态变量,所述一个或多个状态变量以图形形式呈现;以及强化学习模块,其被配置为基于奖赏和所述一个或多个状态变量来更新动作值表。2.如权利要求1所述的机器学习装置,其中,所述一个或多个状态变量包括环境温度、所述电子设备的处理器消耗的功率、所述处理器的温度、以及用于所述电子设备的风扇的脉冲宽度调制PWM信号的占空比中的一个或多个。3.如权利要求1所述的机器学习装置,其中,所述动作值表指示用于下一动作中所述电子设备的风扇的PWM信号的占空比的增加或减少。4.如权利要求3所述的机器学习装置,其中,所述占空比的增加或减少选自以下组:0、+2%、-2%、+5%、-5%、+9%和-9%。5.如权利要求2所述的机器学习装置,还包括瞬态模型模块,所述瞬态模型模块被配置为基于所述一个或多个状态变量生成所述奖赏。6.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为当所述处理器的温度落入预定目标范围内时增加所述奖赏。7.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为当所述处理器的温度超过第一阈值时将所述奖赏减少第一值。8.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为当所述处理器的温度超过第二阈值时将所述奖赏减少第二值。9.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为根据所述处理器的温度与预定值之间的距离来确定奖赏,并且其中,所述距离是所述处理器的温度减去所述预定值所得运算结果的绝对值。10.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为根据所述处理器的温度与预定范围之间的距离来确定奖赏,所述预定范围具有上端点和下端点,并且当所述处理器的温度高于所述上端点时,所述距离是所述处理器的温度减去所述上端点所得运算结果的绝对值,当所述处理器的温度低于所述下端点时,所述距离是所述处理器的温度减去所述下端点所得运算结果的绝对值。11.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块被配置为当所述占空比的波动不超过预定范围时增加所述奖赏。12.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块还被配置为通过以下来操作进行自我训练:基于在预定时间内从环境和所述电子设备提取的数据组中随机选择的一个或多个变量的值来生成奖赏值并且输出动作值。13.如权利要求12所述的机器学习装置,还包括重放存储器,其被配置为预存储所述数据组。14.如权利要求5所述的机器学习装置,其中,所述瞬态模型模块还被配置为通过使用一组实验数据输入来进行自我训练,以建立优化所述奖赏的所述热控制策略,所述实验数据输入包括环境温度、所述电子设备消耗的功率、所述处理器...

【专利技术属性】
技术研发人员:蔡昀达李振玮覃黔黔王毓弘龚育谆萧惟哲张智堡蔡淑贞庄明昌范瑞展
申请(专利权)人:联想企业解决方案新加坡有限公司
类型:发明
国别省市:新加坡,SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1