基于强化学习的电子电器控制方法及控制设备、存储介质技术

技术编号：24680807 阅读：26 留言：0更新日期：2020-06-27 07:20

本发明专利技术涉及基于强化学习的电子电器控制方法，针对具有场景自动控制功能的电子电器，应用强化学习控制策略，通过获取用户不断对电子电器设备的干预控制作为强化学习的决策输入，动态生成适应用户不同场景下设备自动控制的场景算法模型，获得电子电器最为贴近用户使用习惯的自动化工作模式的场景算法模型，提高电子电器的使用效率，并将上述所设计方法应用于各种电子电器，进而实现了全电子电器场景自动控制的自学习方式的优化更新，为智能家居、智能办公提供了更好的场景自动控制方法。

Control method, control equipment and storage medium of electronic and electrical equipment based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的电子电器控制方法及控制设备、存储介质
本专利技术涉及基于强化学习的电子电器控制方法及控制设备、存储介质，属于房屋物联智能化

技术介绍
目前市场上大部分的智能家居系统，都是依靠“场景”和“自动化”这两个功能来完成绝大部分的功能，控制方式主要依赖语音控制或者手机控制。虽然很多用户觉得现在人工智能很发达，系统应该可以自己学习用户习惯，并且能够以家为中心自动应用场景，家庭设备与外界交互与反馈(通过设备监测自动联动场景设备，能够采集个人或环境信息），从而极大提升家居生活的舒适性，但是实际上，目前AI在智能家居领域的应用还不够广泛，智能家居基本上还是依靠场景和自动化来实现的。强化学习（ReinforcementLearning）是机器学习里面的一个分支，善于控制一个能够在某个环境下自主行动的个体，通过个体和环境之间的互动，不断改进它的行为，强调如何基于环境而行动，以取得最大化的预期利益。强化学习问题包括学习如何做、如何将环境映射为行动，从而获得最大的奖励。在强化学习中，学习器是一个制定决策的智能体，它不会被告知该执行什么动作，而是经过反复尝试运行，来发现能获得最大奖励的行为。一般情况下，行动不仅会影响当前的奖励，而且会影响下个时间点的环境，因此也会影响后续所有的奖励。因为学习系统的行动会影响到环境，环境又会影响后续的行动，所以从本质上讲，强化学习是一个闭环控制问题。强化学习的目的就是解一个MDP（马可夫决策过程）。具体地说，我们要将学习者和决策者（Agent）放在某个环境（Environment）...

【技术保护点】
1.基于强化学习的电子电器控制方法，用于针对各个具有场景自动控制功能的电器，实现各个电器的分别控制；其特征在于，分别针对各个电器，基于电器按其所对应各个初始自动控制场景的工作过程，针对电器如下各个状态，实现针对电器的不同控制方法；/n状态1. 电器处于未启动状态，若电器接收到人为开启动作进行工作，则针对当前时间与该电器开启动作，结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息，构成该电器所对应新的自动化控制场景；若电器未接收到人为开启动作，则不做任何进一步操作；/n状态2. 电器处于工作状态中，若电器接收到人为关闭动作停止工作，则针对当前时间与该电器关闭动作，结合该电器所处环境对应该电器工作目的因素、在该电器停止工作前的检测信息，构成该电器所对应新的自动化控制场景；若电器未接收到人为关闭动作，则定义电器工作目的因素为因素A，并获得该电器在当前自动化控制场景下针对因素A的设置信息A

【技术特征摘要】
1.基于强化学习的电子电器控制方法，用于针对各个具有场景自动控制功能的电器，实现各个电器的分别控制；其特征在于，分别针对各个电器，基于电器按其所对应各个初始自动控制场景的工作过程，针对电器如下各个状态，实现针对电器的不同控制方法；
状态1.电器处于未启动状态，若电器接收到人为开启动作进行工作，则针对当前时间与该电器开启动作，结合该电器所处环境对应该电器工作目的因素、在该电器启动工作前的检测信息，构成该电器所对应新的自动化控制场景；若电器未接收到人为开启动作，则不做任何进一步操作；
状态2.电器处于工作状态中，若电器接收到人为关闭动作停止工作，则针对当前时间与该电器关闭动作，结合该电器所处环境对应该电器工作目的因素、在该电器停止工作前的检测信息，构成该电器所对应新的自动化控制场景；若电器未接收到人为关闭动作，则定义电器工作目的因素为因素A，并获得该电器在当前自动化控制场景下针对因素A的设置信息A设，然后执行如下步骤A至步骤B，以人为调整动作为干预原点，基于原点，结合环境所对应因素A的变化，改变电器自动化控制场景中的工作状态，实现电器自动化控制场景的优化；
步骤A.检测获得该电器所处环境对应因素A的检测信息A测，并进入步骤B；
步骤B.若电器未接收到人为针对因素A的调整设置动作，则定义更新A设至A测为该电器所对应当前自动化控制场景中、环境对应因素A的忍受波动范围，保持该电器的当前工作状态，然后返回步骤A；
若电器接收到人为针对因素A的调整设置动作，则用针对因素A的新设置信息，更新该电器在当前自动化控制场景下针对因素A的设置信息A设，并控制该电器以对应因素A新设置信息的工作状态进行...

【专利技术属性】
技术研发人员：刘强，许弘，
申请(专利权)人：南京三满互联网络科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人