基于强化学习的电子电器控制方法及控制设备、存储介质技术

技术编号:24680807 阅读:25 留言:0更新日期:2020-06-27 07:20
本发明专利技术涉及基于强化学习的电子电器控制方法,针对具有场景自动控制功能的电子电器,应用强化学习控制策略,通过获取用户不断对电子电器设备的干预控制作为强化学习的决策输入,动态生成适应用户不同场景下设备自动控制的场景算法模型,获得电子电器最为贴近用户使用习惯的自动化工作模式的场景算法模型,提高电子电器的使用效率,并将上述所设计方法应用于各种电子电器,进而实现了全电子电器场景自动控制的自学习方式的优化更新,为智能家居、智能办公提供了更好的场景自动控制方法。

Control method, control equipment and storage medium of electronic and electrical equipment based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的电子电器控制方法及控制设备、存储介质
本专利技术涉及基于强化学习的电子电器控制方法及控制设备、存储介质,属于房屋物联智能化

技术介绍
目前市场上大部分的智能家居系统,都是依靠“场景”和“自动化”这两个功能来完成绝大部分的功能,控制方式主要依赖语音控制或者手机控制。虽然很多用户觉得现在人工智能很发达,系统应该可以自己学习用户习惯,并且能够以家为中心自动应用场景,家庭设备与外界交互与反馈(通过设备监测自动联动场景设备,能够采集个人或环境信息),从而极大提升家居生活的舒适性,但是实际上,目前AI在智能家居领域的应用还不够广泛,智能家居基本上还是依靠场景和自动化来实现的。强化学习(ReinforcementLearning)是机器学习里面的一个分支,善于控制一个能够在某个环境下自主行动的个体,通过个体和环境之间的互动,不断改进它的行为,强调如何基于环境而行动,以取得最大化的预期利益。强化学习问题包括学习如何做、如何将环境映射为行动,从而获得最大的奖励。在强化学习中,学习器是一个制定决策的智能体,它不会被告知该执行什么动作,而是经过反复尝试运行,来发现能获得最大奖励的行为。一般情况下,行动不仅会影响当前的奖励,而且会影响下个时间点的环境,因此也会影响后续所有的奖励。因为学习系统的行动会影响到环境,环境又会影响后续的行动,所以从本质上讲,强化学习是一个闭环控制问题。强化学习的目的就是解一个MDP(马可夫决策过程)。具体地说,我们要将学习者和决策者(Agent)放在某个环境(Environment)中,让它学习如何最大化获得的总收益。因此若能将强化学习的思想付诸于智能设备的控制上,将大大提高智能设备的场景自动化使用效率。
技术实现思路
本专利技术所要解决的技术问题是提供基于强化学习的电子电器控制方法,针对具有场景自动控制功能的电器,应用强化学习控制策略,能够使得电子电器获得更加贴近用户使用习惯的自动化工作模式,提高电器工作效率。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了基于强化学习的电子电器控制方法,用于针对各个具有场景自动控制功能的电器,实现各个电器的分别控制;分别针对各个电器,基于电器按其所对应各个初始自动控制场景的工作过程,针对电器如下各个状态,实现针对电器的不同控制方法;状态1.电器处于未启动状态,若电器接收到人为开启动作进行工作,则针对当前时间与该电器开启动作,结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为开启动作,则不做任何进一步操作;状态2.电器处于工作状态中,若电器接收到人为关闭动作停止工作,则针对当前时间与该电器关闭动作,结合该电器所处环境对应该电器工作目的因素、在该电器停止工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为关闭动作,则定义电器工作目的因素为因素A,并获得该电器在当前自动化控制场景下针对因素A的设置信息A设,然后执行如下步骤A至步骤B,以人为调整动作为干预原点,基于原点,结合环境所对应因素A的变化,改变电器自动化控制场景中的工作状态,实现电器自动化控制场景的优化;步骤A.检测获得该电器所处环境对应因素A的检测信息A测,并进入步骤B;步骤B.若电器未接收到人为针对因素A的调整设置动作,则定义更新A设至A测为该电器所对应当前自动化控制场景中、环境对应因素A的忍受波动范围,保持该电器的当前工作状态,然后返回步骤A;若电器接收到人为针对因素A的调整设置动作,则用针对因素A的新设置信息,更新该电器在当前自动化控制场景下针对因素A的设置信息A设,并控制该电器以对应因素A新设置信息的工作状态进行工作,然后返回步骤A。作为本专利技术的一种优选技术方案:基于分别针对各个电器,按状态1和状态2分别所实现针对电器的不同控制方法,更新获得各个电器分别所对应的各个自动控制场景,构成所处环境中各电器分别所对应的各个自动控制场景,进一步以环境所处预设大小地理区域中、各环境中各电器分别所对应的各个自动控制场景进行强化学习算法建模,获得该地理区域中各电器分别所对应占比最高的各个自动控制场景的算法模型,作为该地理区域中各电器分别所对应的各个初始自动控制场景的算法模型,组合构成该地理区域所对应的电器自动控制场景算法模型的初始集合,用于分配至该地理区域中新设置环境中各具有场景自动控制功能的电器进行应用。作为本专利技术的一种优选技术方案:所述电子电器、以及电子电器工作目的因素,包括所述电器为照明装置,则电器工作目的因素为亮度因素;所述电器为制冷制热装置,则电器工作目的因素为温度因素;所述电器为加湿装置,则电器工作目的因素为湿度因素;所述电器为空气净化装置,则电器工作目的因素为空气净化装置所对应各功能下的各空气指标因素。与上述相对应,本专利技术还设计了一种电子电器控制设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,电器控制设备与所述各个具有场景自动控制功能的电器分别相连接,所述处理器执行所述计算机程序时实现本专利技术所设计基于强化学习的电子电器控制方法的步骤。此外,本专利技术还设计了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术所设计基于强化学习的电子电器控制方法的步骤。本专利技术所述基于强化学习的电子电器控制方法及控制设备、存储介质,采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术所设计基于强化学习的电子电器控制方法,针对具有场景自动控制功能的电子电器,应用强化学习控制策略,通过获取用户不断对电子电器设备的干预控制作为强化学习的决策输入,动态生成适应用户不同场景下设备自动控制的场景算法模型,获得电子电器最为贴近用户使用习惯的自动化工作模式的场景算法模型,提高电子电器的使用效率,并将上述所设计方法应用于各种电子电器,进而实现了全电子电器场景自动控制的自学习方式的优化更新,为智能家居、智能办公提供了更好的场景自动控制方法;并进一步设计了基于上述技术方案的计算机设备、存储介质,将所设计基于强化学习的电子电器控制方法落实于硬件,获得实际应用中高效的电子电器使用效果。附图说明图1为本专利技术所设计基于强化学习的电子电器控制方法的流程示意图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的说明。本专利技术设计了基于强化学习的电子电器控制方法,用于针对各个具有场景自动控制功能的电器,实现各个电器的分别控制,应用中电器具体包括强电设备和弱电设备;分别针对各个电器,如图1所示,基于电器按其所对应各个初始自动控制场景的工作过程,针对电器如下各个状态,实现针对电器的不同控制方法。状态1.电器处于未启动状态,若电器接收到人为开启动作进行工作,则针对当前时间与该电器开启动作,结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为开启动作,则不做任何本文档来自技高网
...

【技术保护点】
1.基于强化学习的电子电器控制方法,用于针对各个具有场景自动控制功能的电器,实现各个电器的分别控制;其特征在于,分别针对各个电器,基于电器按其所对应各个初始自动控制场景的工作过程,针对电器如下各个状态,实现针对电器的不同控制方法;/n状态1. 电器处于未启动状态,若电器接收到人为开启动作进行工作,则针对当前时间与该电器开启动作,结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为开启动作,则不做任何进一步操作;/n状态2. 电器处于工作状态中,若电器接收到人为关闭动作停止工作,则针对当前时间与该电器关闭动作,结合该电器所处环境对应该电器工作目的因素、在该电器停止工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为关闭动作,则定义电器工作目的因素为因素A,并获得该电器在当前自动化控制场景下针对因素A的设置信息A

【技术特征摘要】
1.基于强化学习的电子电器控制方法,用于针对各个具有场景自动控制功能的电器,实现各个电器的分别控制;其特征在于,分别针对各个电器,基于电器按其所对应各个初始自动控制场景的工作过程,针对电器如下各个状态,实现针对电器的不同控制方法;
状态1.电器处于未启动状态,若电器接收到人为开启动作进行工作,则针对当前时间与该电器开启动作,结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为开启动作,则不做任何进一步操作;
状态2.电器处于工作状态中,若电器接收到人为关闭动作停止工作,则针对当前时间与该电器关闭动作,结合该电器所处环境对应该电器工作目的因素、在该电器停止工作前的检测信息,构成该电器所对应新的自动化控制场景;若电器未接收到人为关闭动作,则定义电器工作目的因素为因素A,并获得该电器在当前自动化控制场景下针对因素A的设置信息A设,然后执行如下步骤A至步骤B,以人为调整动作为干预原点,基于原点,结合环境所对应因素A的变化,改变电器自动化控制场景中的工作状态,实现电器自动化控制场景的优化;
步骤A.检测获得该电器所处环境对应因素A的检测信息A测,并进入步骤B;
步骤B.若电器未接收到人为针对因素A的调整设置动作,则定义更新A设至A测为该电器所对应当前自动化控制场景中、环境对应因素A的忍受波动范围,保持该电器的当前工作状态,然后返回步骤A;
若电器接收到人为针对因素A的调整设置动作,则用针对因素A的新设置信息,更新该电器在当前自动化控制场景下针对因素A的设置信息A设,并控制该电器以对应因素A新设置信息的工作状态进行...

【专利技术属性】
技术研发人员:刘强许弘
申请(专利权)人:南京三满互联网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1