利用深度强化学习控制环境舒适度的系统及其方法技术方案

技术编号:27026401 阅读:44 留言:0更新日期:2021-01-12 11:09
本发明专利技术涉及一种利用深度强化学习控制环境舒适度的系统及其方法。首先,由至少一环境因子感测模块、一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元分别侦测活动空间中的环境因子的信息、空调设备的状态信息及排风扇系统的状态信息。然后,由一电脑整合环境因子的信息、空调设备的状态信息及排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将整合信息进行权衡运算以产生优化调控结果,进而由电脑依据优化调控结果产生相应的调控指令以优化调控空调设备与排风扇系统。据此,本发明专利技术能控制活动空间中的环境舒适度,以达到省电节能的效果。

【技术实现步骤摘要】
利用深度强化学习控制环境舒适度的系统及其方法
本专利技术关于一种控制环境舒适度的技术,特别是指一种利用深度强化学习(DRL)控制环境舒适度的系统及其方法。
技术介绍
中国台湾地处亚热带气候区,夏季天气炎热,高温时常可达摄氏33度(℃)以上,高温高湿的气候导致室内环境闷热,因此需要空调设备来调节温度。然而,在例如校园教室的活动空间或室内环境中,众多学生在教室内时,通常在开启空调设备时需将门窗紧闭,如此会使二氧化碳(CO2)的浓度过高,降低室内空气品质。在一现有技术中,提出一种结合影像辨识的空调舒适度控制系统与方法,其在人员的活动空间中架设多个摄影机,以利用摄影机所拍摄的影像,经过影像分析模块侦测人员数量与位置。同时,系统持续收集环境因子感测器的数据,并在计算环境舒适度、最适温度、最适风速后自动控制空调设备,以针对人员所在位置提供一个舒适的热环境,借此提高空调使用效率。然而,此现有技术需结合多个摄影机与影像辨识功能,以致额外增加多个摄影机的费用及硬件成本。因此,如何提供一种新颖或创新的控制环境舒适度的技术,实已成为本领域技术人员的一大研究课题。
技术实现思路
本专利技术提供一种新颖或创新的利用深度强化学习(DeepReinforcementLearning;DRL)控制环境舒适度的系统及其方法,其能控制环境舒适度,或在环境舒适度与能源消耗之间取得平衡,也可进一步达到省电节能的效果。本专利技术中利用深度强化学习控制环境舒适度的系统包括:至少一空调设备与一排风扇系统,其设置于活动空间中;至少一环境因子感测模块,其侦测活动空间中的环境因子的信息(information);一控制与侦测模块,其具有一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元,用以分别侦测空调设备的状态信息及排风扇系统的状态信息;以及一第一电脑,其整合来自环境因子感测模块的环境因子的信息、来自空调设备控制与状态侦测单元的空调设备的状态信息、及来自排风扇系统控制与状态侦测单元的排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有环境因子的信息、空调设备的状态信息及排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由第一电脑依据优化调控结果产生相应的调控指令,以依据调控指令优化调控空调设备与排风扇系统。本专利技术中利用深度强化学习控制环境舒适度的方法包括:由至少一环境因子感测模块侦测活动空间中的环境因子的信息,且活动空间中设置有至少一空调设备与一排风扇系统;由一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元分别侦测空调设备的状态信息及排风扇系统的状态信息;以及由一第一电脑整合来自环境因子感测模块的环境因子的信息、来自空调设备控制与状态侦测单元的空调设备的状态信息、及来自排风扇系统控制与状态侦测单元的排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有环境因子的信息、空调设备的状态信息及排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由第一电脑依据优化调控结果产生相应的调控指令,以依据调控指令优化调控空调设备与排风扇系统。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所示附图作详细说明。在以下描述内容中将部分阐述本专利技术的额外特征及优点,且这些特征及优点将部分自所述描述内容可得而知,或可经由对本专利技术的实践习得。本专利技术的特征及优点借助于在权利要求书中特别指出的元件及组合来认识到并达到。应理解,前文一般描述与以下详细描述两者均仅为例示性及解释性的,且不欲约束本专利技术所欲主张的范围。附图说明图1为强化学习的基本概念示意图;图2为本专利技术中利用深度强化学习控制环境舒适度的系统的架构示意图;图3为本专利技术中利用深度强化学习控制环境舒适度的方法的流程示意图;图4A与图4B分别为本专利技术在活动空间中设置各种设备及其连接方式的实施例示意图;图5A与图5B分别为本专利技术中未开启排风扇与采取深度强化学习演算法(Agent)自动控制(开启)排风扇时,活动空间中二氧化碳的浓度的曲线图;图6A与图6B分别为本专利技术在深度强化学习演算法(Agent)控制下,随单位时间变化的PMV(预测平均票选值)数值与温度设定值的曲线图;以及图7为本专利技术中不同的控制方法对热舒适度及能耗(冷气耗电)的影响的数据表。附图标记说明1利用深度强化学习控制环境舒适度的系统10环境因子感测模块11黑球温度感测器12温湿度/二氧化碳感测器20空调设备21开关控制22温度设定值23风速设定值30排风扇系统31排风扇32开关控制40控制与侦测模块41环境侦测单元42空调设备控制与状态侦测单元43排风扇系统控制与状态侦测单元50第一电脑60第二电脑61深度强化学习演算法70人机界面71输入单元80路由器A1、A2时间点B1、B2圆圈C1、C2圆圈D数据表E活动空间S1至S4步骤。具体实施方式以下经由特定的具体实施形态说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容了解本专利技术的其他优点与功效,也可因而通过其他不同的具体等同实施形态加以施行或应用。图1为强化学习(ReinforcementLearning)的基本概念示意图,其中,t表示时间。强化学习是机器学习(MachineLearning)家族的一员,其为一种目标导向(goal-oriented)的学习方法,旨在经由与环境互动过程中获得的各种奖励或惩罚以学会如何做决策。强化学习决策过程的模拟包括下列六个要素:[1]Agent(演算法):其经由行动与环境互动,以代替人们做决定而执行动作,且Agent表示演算法本身。[2]Environment(环境):其为与Agent互动的世界,环境会将Agent的当前状态及行动作为输入,再将奖励和下个状态作为输出。[3]State(状态):其为Agent在特定时间点所处的状态,它可以是特定的位置或特定的配置;而且,State可以是由环境反馈的当前状态,也可以是未来的状况。[4]Action(行动):其为所有Agent可以采取的行动而形成的集合,且Agent会在可能的行动列表中进行选择。[5]Reward(奖励):其为人们衡量Agent所采取行动的成败指标,奖励可以是立即的或延迟的,但它必须有效的评估Agent采取的动作。[6]Policy(策略):其为Agent决定行动的策略,这个策略会因应不同状态做出调整,尽可能地获得最高奖励。图2为本专利技术中利用深度强化学习控制环境舒适度的系统1的架构示意图。如图所示,深度强化学习控制环境舒适度的系统1包括至少一个(如多个)环境因子感测模块10、至少一个(如多个)空调设备20、一排风扇系统30、一控制与侦测模块40、一第一电脑50、一第二电脑60、以及一人机界面70。空调设备20与排风扇系统30可设置于活动空间中,且控制与侦测模块40可具有一环境侦测单元本文档来自技高网...

【技术保护点】
1.一种利用深度强化学习控制环境舒适度的系统,其特征在于,包括:/n至少一空调设备与一排风扇系统,其设置于活动空间中;/n至少一环境因子感测模块,其侦测该活动空间中的环境因子的信息;/n一控制与侦测模块,其具有一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元,用以分别侦测该空调设备的状态信息及该排风扇系统的状态信息;以及/n一第一电脑,其整合来自该环境因子感测模块的该环境因子的信息、来自该空调设备控制与状态侦测单元的该空调设备的状态信息、及来自该排风扇系统控制与状态侦测单元的该排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有该环境因子的信息、该空调设备的状态信息及该排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由该第一电脑依据该优化调控结果产生相应的调控指令,以依据该调控指令优化调控该空调设备与该排风扇系统。/n

【技术特征摘要】
20190710 TW 1081242911.一种利用深度强化学习控制环境舒适度的系统,其特征在于,包括:
至少一空调设备与一排风扇系统,其设置于活动空间中;
至少一环境因子感测模块,其侦测该活动空间中的环境因子的信息;
一控制与侦测模块,其具有一空调设备控制与状态侦测单元及一排风扇系统控制与状态侦测单元,用以分别侦测该空调设备的状态信息及该排风扇系统的状态信息;以及
一第一电脑,其整合来自该环境因子感测模块的该环境因子的信息、来自该空调设备控制与状态侦测单元的该空调设备的状态信息、及来自该排风扇系统控制与状态侦测单元的该排风扇系统的状态信息以产生整合信息,再通过一深度强化学习演算法将具有该环境因子的信息、该空调设备的状态信息及该排风扇系统的状态信息的整合信息进行权衡运算以产生优化调控结果,进而由该第一电脑依据该优化调控结果产生相应的调控指令,以依据该调控指令优化调控该空调设备与该排风扇系统。


2.根据权利要求1所述的系统,其特征在于,该空调设备具有开关控制、温度设定值或风速设定值,以供该空调设备控制与状态侦测单元设定。


3.根据权利要求1所述的系统,其特征在于,该排风扇系统由至少一排风扇所构成,且该排风扇具有开关控制、吸排模式或级别大小调控,以供该排风扇系统控制与状态侦测单元设定。


4.根据权利要求1所述的系统,其特征在于,该环境因子感测模块具有至少一黑球温度感测器及至少一温湿度/二氧化碳感测器,该黑球温度感测器用以测量该活动空间的辐射温度,且该温湿度/二氧化碳感测器用以测量该活动空间的干球温度、相对湿度或二氧化碳的浓度。


5.根据权利要求1所述的系统,其特征在于,该控制与侦测模块还具有一环境侦测单元,用以读取来自该环境因子感测模块的该环境因子的信息,且该环境因子包括该活动空间中的环境温度、相对湿度或平均辐射温度。


6.根据权利要求1所述的系统,其特征在于,该深度强化学习演算法还依据热舒适度指标、该活动空间中二氧化碳的浓度、该空调设备的能耗与该排风扇系统的能耗进行权衡运算以产生该优化调控结果。


7.根据权利要求1所述的系统,其特征在于,该深度强化学习演算法以预测平均票选值(PMV)作为判断人体舒适程度的依据,且该预测平均票选值(PMV)采用人体七级热感觉平衡量表作为依据。


8.根据权利要求1所述的系统,其特征在于,该深度强化学习演算法为强化学习演算法与深度学习演算法的结合,且该深度强化学习演算法为深度Q网络(DQN)演算法。


9.根据权利要求1所述的系统,其特征在于,该系统还包括一第二电脑,用以接收来自该第一电脑的该整合信息,且该深度强化学习演算法建构于该第二电脑中,以对该整合信息进行权衡运算以产生该优化调控结果。


10.根据权利要求1所述的系统,其特征在于,该系统还包括一具有输入单元的人机界面,以供用户通过该...

【专利技术属性】
技术研发人员:陈弈安王启川余冠亨吴武杰廖国凯廖仁忠吕光钦张秦耀
申请(专利权)人:中华电信股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1