面向高原场景智能供氧的轻量化强化学习模型构建方法技术

技术编号:31982384 阅读:13 留言:0更新日期:2022-01-20 01:55
本发明专利技术专利公开了一种面向高原场景智能供氧的轻量化强化学习模型构建方法,该模型包含:环境状态输入,数据预处理,使用神经网络决策输出动作,接收环境反馈奖励,更新神经网络参数几个步骤。可以综合考虑高原等极端环境下的各种因素,提高模型的准确度,同时保证做出正确的决策下尽量减小模型计算量,高效完成供氧任务,可以作为供氧系统智能控制供氧量的模型基础。型基础。

【技术实现步骤摘要】
面向高原场景智能供氧的轻量化强化学习模型构建方法


[0001]本专利技术涉及机器学习
,具体来说,是面向高原场景智能供氧的轻量化强化学习模型构建方法。

技术介绍

[0002]高原反应,是人进入海拔3000米以上高原暴露于低压低氧环境后所产生的不适症状,是高原地区独有的常见病。高原反应对于人体的危害极大,降低高原反应对于心理和生理影响是具有重要意义,因此,迫切需要对高原作业人群提供便携以及智能化的供氧系统,智能化可以采用机器学习中的强化学习技术,让智能体可以逐渐在训练中适应环境,从而取得最好的整体收益。
[0003]专利技术专利201210307733.0涉及一种适用于高原地区的便携式制氧机,其在传统制氧机基础之上增加了一系列的智能判断装置,对输出氧气流量进行调节,形成脉冲式供氧,但该装置体积较大不适合单人携带,只能适用于非移动场景使用。

技术实现思路

[0004]本专利技术提出了一种面向高原场景智能供氧的轻量化强化学习模型构建方法。该模型使用人工智能领域的强化学习技术,可以综合考虑高原极端环境下的多种因素,提高模型的准确度,同时在做出正确决策下尽量减小模型计算量,高效完成供氧任务,可以作为供氧系统智能控制供氧量的模型。
[0005]本专利技术提供一种面向高原场景智能供氧的轻量化强化学习模型构建方法,所述面向高原场景智能供氧的轻量化强化学习模型构建方法包括:
[0006]S1:接收当前供氧的高原环境状态信息;
[0007]S2:对所述高原环境状态信息进行预处理,得到环境状态矩阵;
[0008]S3:根据所述环境状态矩阵,利用神经网络,得到各动作的收益估计值集合;
[0009]S4:获取各动作的收益估计值集合中的最优动作;
[0010]S5:判断所述最优动作是否为预设最优动作,若是,结束当前供氧并将所述最优动作发送至外部任务控制器;否则,返回步骤S1。
[0011]可选择地,所述步骤S1中,所述当前供氧的环境状态信息包括:环境数据和任务数据。
[0012]可选择地,所述环境数据包括:海拔高度和温湿度;和/或所述任务数据包括血氧饱和度、心率参数和呼吸参数。
[0013]可选择地,所述步骤S2包括:对所述环境状态信息进行采样操作;对所述采样后的环境状态信息进行降噪操作,得到所述环境状态矩阵。
[0014]可选择地,所述步骤S3中,所述神经网络包括输入层、全连接层和输出层,所述输入层用于输入所述环境状态矩阵,所述输出层输出所述各动作的收益估计值集合,所述全连接层同时连接所述输入层和所述输出层。
[0015]本专利技术具有以下有益效果:
[0016]人工智能领域中的强化学习模型可以较好地适应高原环境,从高原的海拔、温度、氧气含量等特殊环境状态学出较好的动作使得总收益最高,从而对决策结果的准确度有保障,并且采用轻量的神经网络,即较少的网络参数和层数从而减小计算量,可以更好地工作在嵌入式设备中。
[0017]模型核心采用Q学习算法,由于高原场景的状态较为复杂,Q学习算法需要一个Q值函数用来评价在环境的某状态下采取某种动作的价值,而原版Q学习算法的Q值函数是采用一个表格存储所有的状态。由于高原场景下的环境状态有非常多的可能性,采用表存储将会占用很大的存储空间,成本高昂且查询效率低下,为解决此问题本专利技术采用神经网络来近似传统Q值的分布。
[0018]神经网络的输入层是一个3个神经元的全连层,接收当前状态海拔、温度、血氧饱和度数据组成的一维矩阵;网络输出层是一个对应动作集合A中所有动作数量的全连接层,输出的是各动作的收益估计值矩阵,网络的可以设置2个隐层,分别为10个、8个神经元的全连接层。
[0019]本专利技术的有益效果:人工智能领域中的强化学习模型可以较好地“适应”高原环境,从高原的海拔、温度、氧气含量等特殊环境状态学出较好的动作使得总收益最高,从而对决策结果的准确度有保障,并且采用轻量的神经网络,即较少的网络参数和层数从而减小模型计算量,可以更好地工作在嵌入式设备中。
[0020]本专利技术的模型工作流程如下:
[0021]模型接收环境状态传感器和任务状态传感器返回的数据作为输入,环境状态信息比如t时刻环境的温度T
t
,环境的海拔Al
t
,高原环境下供氧任务状态信息就是使用者的血氧饱和度X
t

[0022]将上述信息作为数据预处理模块的输入,数据预处理模块主要进行数据的采样和降噪,可以采用间隔固定秒数对传感器数据进行采样和降噪,降噪后的最终数据为数据预处理模块的输出,即环境状态的矩阵S
t

[0023]决策器接收矩阵S
t
,然后提供给神经网络,神经网络接收输入S
t
,输入层的3个神经元分别接收当前状态海拔、温度、血氧饱和度数据,然后经过2个隐层,最后到达输出层,输出层各神经元输出t时刻采取各动作的收益估计值集合Q(S
t
,A)。同时神经网络将S
t
中的血氧饱和度数据作为上一步采取动作环境给予奖励来优化神经网络的参数;
[0024]决策器从神经网络输出的集合Q(S
t
,A)中找出预期收益值最大的一个Q(S
t
,a

t
),将对应的最优动作a

t
作为模型的输出发给外部任务控制器执行;做出动作后,如果任务还未完成,则回到步骤1继续执行,如果任务已经完成,则模型工作结束。
附图说明
[0025]图1为本专利技术所提供的面向高原场景智能供氧的轻量化强化学习模型构建方法的流程图;
[0026]图2为本专利技术所提供的面向高原场景智能供氧的轻量化强化学习模型构建方法的结构示意图。
具体实施方式
[0027]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0028]实施例1
[0029]本专利技术提供一种面向高原场景智能供氧的轻量化强化学习模型构建方法,参考图1和图2所示,所述面向高原场景智能供氧的轻量化强化学习模型构建方法包括:
[0030]S1:接收当前供氧的高原环境状态信息;
[0031]S2:对所述高原环境状态信息进行预处理,得到环境状态矩阵;
[0032]S3:根据所述环境状态矩阵,利用神经网络,得到各动作的收益估计值集合;
[0033]S4:获取各动作的收益估计值集合中的最优动作;
[0034]S5:判断所述最优动作是否为预设最优动作,若是,结束当前供氧并将所述最优动作发送至外部任务控制器;否则,返回步骤S1。
[0035]可选择地,所述步骤S1中,所述当前供氧的环境状态信息包括:环境数据和任务数据。
[0036]可选择地,所述环境数据包括:海拔高度和温湿度;和/或所述任务数据包括血氧饱和度、心率参数和呼吸参数。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高原场景智能供氧的轻量化强化学习模型构建方法,其特征在于,包括:S1:接收当前供氧的高原环境状态信息;S2:对所述高原环境状态信息进行预处理,得到环境状态矩阵;S3:根据所述环境状态矩阵,利用神经网络,得到各动作的收益估计值集合;S4:获取各动作的收益估计值集合中的最优动作;S5:判断所述最优动作是否为预设最优动作,若是,结束当前供氧并输出轻量化强化学习模型;否则,返回步骤S1。2.根据权利要求1所述的面向高原场景智能供氧的轻量化强化学习模型构建方法,其特征在于,所述步骤S1中,所述当前供氧的环境状态信息包括:环境数据和任务数据。3.根据权利要求2所述的面向高原场景智能供氧的轻量化...

【专利技术属性】
技术研发人员:张羽杨慧
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1