【技术实现步骤摘要】
一种基于强化学习的常压低氧舱气体浓度控制方法
本专利技术涉及控制领域和强化学习领域,具体涉及一种基于强化学习的常压低氧舱气体浓度控制方法。
技术介绍
我国国土面积的六分之一是由高山高原组成,空气稀薄,氧分压低是高原环境对集体影响的主要因素,随着我国社会经济发展和国防战略的需要,前往低氧地区的人员越来越多。因此常压低氧舱的设计、实现和优化成为了一个热点问题。常压低氧舱由于舱体不密闭、气体流动性大、控制系统复杂等特点,传统的线性系统理论控制方法诸如P控制、PD控制以及PID控制等,很难快速改变气体浓度并达到稳定。因此,亟需一种自适应性高、鲁棒性强的低氧舱气体浓度控制方法。
技术实现思路
本专利技术为了解决现有常压低氧舱浓度环境存在非线性、多变量耦合性、不确定性状态和控制滞后性等问题,提供一种基于强化学习的常压低氧舱气体浓度控制方法。基于强化学习的常压低氧舱气体浓度控制方法,该方法由以下步骤实现:步骤一、设定迭代次数N、初始化目标值D、动作奖励值R、氮气进气动作值ActionN2、空气进气动作值ActionO2、学习速率SS、贪婪系数Gr、折扣因子Dc和动作效用函数表Qt; ...
【技术保护点】
1.基于强化学习的常压低氧舱气体浓度控制方法,其特征是:具体包括以下步骤:步骤一、设定迭代次数N、初始化目标值D、动作奖励值R、氮气进气动作值ActionN2、空气进气动作值ActionO2、学习速率SS、贪婪系数Gr、折扣因子Dc和动作效用函数表Qt;步骤二、初始化当前气体浓度值Scr和结束状态位Fsb;步骤三、结束状态位Fsb为假值时,执行步骤四,否则,迭代次数N加1,执行步骤二;步骤四、生成随机数Rd,判断所述随机数Rd是否大于贪婪系数Gr,如果是,则随机选择氮气阀门关闭,空气阀门打开,或空气阀门关闭,氮气阀门打开,执行步骤五;如果否,则比较动作效用函数表Qt中的奖励 ...
【技术特征摘要】
1.基于强化学习的常压低氧舱气体浓度控制方法,其特征是:具体包括以下步骤:步骤一、设定迭代次数N、初始化目标值D、动作奖励值R、氮气进气动作值ActionN2、空气进气动作值ActionO2、学习速率SS、贪婪系数Gr、折扣因子Dc和动作效用函数表Qt;步骤二、初始化当前气体浓度值Scr和结束状态位Fsb;步骤三、结束状态位Fsb为假值时,执行步骤四,否则,迭代次数N加1,执行步骤二;步骤四、生成随机数Rd,判断所述随机数Rd是否大于贪婪系数Gr,如果是,则随机选择氮气阀门关闭,空气阀门打开,或空气阀门关闭,氮气阀门打开,执行步骤五;如果否,则比较动作效用函数表Qt中的奖励值R,选择奖励值R最大的动作执行,并将所述值记为该动作的预测值Pre;执行步骤五;步骤五、计算当前动作奖励值R,具体过程为:步骤五一、如果选择氮气阀门关闭,空气阀门打开,气体浓度状态改变,记为改变状态值Sch,判断Sch是否达到目标值D,如果是,则获得当前动作奖励值R;如果否,则Sch作为当前状态的气体浓度值Scr,获得当前奖励值R;步骤五二、如果选...
【专利技术属性】
技术研发人员:刘名扬,任维武,陈霄,杨明,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林,22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。