当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于强化学习的海洋牧场灾害决策方法技术

技术编号:36299785 阅读:55 留言:0更新日期:2023-01-13 10:15
本发明专利技术公开了一种基于强化学习的海洋牧场灾害决策方法。方法包括:交互环境模块构建海洋牧场的虚拟牧场海域;灾害判断模块判断海洋牧场是否发生灾害,通过动作空间模块对虚拟牧场海域采取预设灾后动作输出反馈结果;决策模块输出初步决策数据;灾害判断模块判断海洋牧场灾害是否结束输出判断结果;奖励更新模块计算奖励值;修正后依次输入参数优化模块和决策模块中更新优化;重复获得训练完成的灾害判断模块和决策模块;灾害判断模块判断海洋牧场发生灾害,训练完成的决策模块输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。本发明专利技术能够提高海洋牧场灾害决策准确率和灵活性,解决风险灾害决策技术落后等问题,提升了管控效率。提升了管控效率。提升了管控效率。

【技术实现步骤摘要】
一种基于强化学习的海洋牧场灾害决策方法


[0001]本专利技术涉及了一种海洋牧场灾害决策方法,具体涉及一种基于强化学习的海洋牧场灾害决策方法。

技术介绍

[0002]在海洋环境灾害决策研究领域,层次分析法即融合定量定性分析的多目标决策分析方法应用较为广泛。其原理是将问题进行层次划分,分类分解相关因素,以形成多层次结构模型,并逐层对因素进行赋值。层次分析法将问题由繁化简,将研究问题分解使其层次化及数量化,从而让问题的分析处理能更加简易。但在涉及到复杂海况的海洋牧场灾害决策相关场景时,由于海洋环境中存在无法准确量化分层的物理因素及规律,层次分析法就显得十分局限。
[0003]人工智能领域的一个主要研究目标是实现完全自主的智能体。智能体能够与其所处的环境进行交互,根据环境反馈学习最佳行为,并通过反复实验不断改进行动策略。深度强化学习(Deep Reinforcement Learning,DRL)的出现为这一目标的实现提供理论基础。作为人工智能研究领域的重要分支,被认为是实现类人智能的关键,受到学术和产业界的广泛关注。
[0004]DRL是一种端对端的感知与控制系统,具有很强的通用性。其学习过程可以描述为:在每个时刻agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;环境对此动作做出反应,并得到下一个观察。
[0005]通过不断循环以上过程,最终可以得到实现目标的最优策略。一方面,DRL对策略和状态具有强大的表征能力,能够用于模拟复杂的决策过程;另一方面,强化学习赋予智能体自监督学习能力,使其能够自主地与环境交互,在试错中不断进步。但在海洋牧场的建设中,DRL目前还未有相关应用。

技术实现思路

[0006]为了解决
技术介绍
中存在的问题,本专利技术所提供一种基于强化学习的海洋牧场灾害决策方法本专利技术基于强化学习的海洋牧场灾害决策算法,以解决现有技术中针对海洋牧场涉及到的海域灾害动态决策规划效率低下、灵活性欠缺、联动性弱等缺陷。
[0007]本专利技术采用的技术方案是:
[0008]本专利技术的海洋牧场灾害决策方法包括如下步骤:
[0009]步骤一:获取当前时刻前的海洋牧场的历史牧场状态数据,将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据;将历史牧场状态预处理数据输入交互环境模块中,在交互环境模块中构建海洋牧场的虚拟牧场海域,即将预处理后的历史牧场数据作为输入,构建基于人工神经网络的海域生态模拟评估模型,作为交互环境模块的主体。
[0010]步骤二:将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,当海洋牧场发生灾害时,通过动作空间模块将一个预设灾后动作输入交互环境模块中对虚拟牧场海域采取预设灾后动作,交互环境模块输出虚拟牧场海域产生的反馈结果;获取的牧场状态数据均为滞后数据,即获取的当前时刻的前一刻的历史牧场数据实际为海洋牧场当前时刻之前N小时的历史牧场数据,即通过当前时刻的前一刻的历史牧场数据判断海洋牧场发生灾害时,实际的海洋牧场已发生N小时的海洋灾害。
[0011]步骤三:获取海洋牧场的实时牧场状态数据,将实时牧场状态数据输入数据处理模块进行数据预处理后获得实时牧场预处理状态数据并输入决策模块中,决策模块输出初步决策数据。
[0012]步骤四:将初步决策数据输入交互环境模块中,交互环境模块输出虚拟牧场海域的预测状态值和状态变化量;将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量输入灾害判断模块中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果。
[0013]具体实施中,灾害判断模块将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量,结合预警条件及阈值,归纳为参数致灾关联公式,用于判断当前牧场海域和虚拟海域环境是否处于风险灾害状态中,即判断灾害是否结束;具体地,可以判断预测状态值是否仍然处于风险区间。
[0014]步骤五:将灾害判断模块输出的判断结果、虚拟牧场海域的预测状态值和状态变化量输入奖励更新模块中,奖励更新模块计算当次的奖励值。
[0015]步骤六:根据实时牧场预处理状态数据对灾害判断模块输出的判断结果和虚拟牧场海域的预测状态值进行修正;将修正后的判断结果和预测状态值、初步决策数据、海洋牧场的状态变化量和环境预估误差输入参数优化模块中处理,处理的输出再输入到决策模块中进行更新优化。
[0016]在修正时,即将虚拟牧场海域的预测状态值修正为实时牧场预处理状态数据,同时确定海洋牧场的实时状态,将灾害判断模块输出的判断结果修正为海洋牧场的实时状态。
[0017]步骤七:重复步骤一至六对灾害判断模块和决策模块进行重复训练,直至奖励更新模块计算获得的奖励值收敛到最大值,停止灾害判断模块和决策模块的训练,获得训练完成的灾害判断模块和决策模块;在进行参数优化的基础上,还需要减少所需的训练回合。
[0018]步骤八:实时获取海洋牧场的牧场监测状态数据并输入数据处理模块进行数据预处理后获得牧场预处理监测状态数据,将牧场预处理监测状态数据输入训练完成的灾害判断模块,当灾害判断模块判断海洋牧场发生灾害时,将牧场预处理监测状态数据输入训练完成的决策模块中,处理后输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。
[0019]所述的海洋牧场的历史牧场状态数据和实时牧场状态数据均包括海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等。
[0020]海域多参数传感器数据包括序列号、日期、时间、电导、叶绿素、PH值、溶解氧和声速等数据;浊度传感器数据包括浊度数据;流速数据包括层数、深度、流速原始数据、x方向流速、y方向流速、z方向流速、合成流速、合成流速方向等数据;生态模拟预报数据包括时
间、经度、纬度、深度、水位、盐度、水温、东向流速和北向流速等数据。
[0021]将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据中的海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据等分别输入数据处理模块中依次进行缺值补充、随机采样和序列化等处理,具体实施中,对存在空缺的数据进行缺值补充;还需要将每一组牧场状态数据根据所在数据集规模进行数据压缩,数据集规模主要以深度取值和数据条数判断规模,小型数据集采用垂向平均处理,大型数据集采用VAE模型进行数据压缩处理,处理后的输出共同构建为历史牧场预处理状态数据。
[0022]所述的步骤一中,将历史牧场状态预处理数据输入交互环境模块中,交互环境模块构建海洋牧场的虚拟牧场海域,具体为交互环境模块根据历史牧场状态预处理数据、海洋牧场汇中的各个设备的投放布局结构以及海洋牧场所在的海域的二维浅水方程和嵌入式二阶矩湍流闭合子模型进而构建虚拟牧场海域。虚拟牧场海域能够根据不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的海洋牧场灾害决策方法,其特征在于:方法包括如下步骤:步骤一:获取当前时刻前的海洋牧场的历史牧场状态数据,将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据;将历史牧场状态预处理数据输入交互环境模块中,在交互环境模块中构建海洋牧场的虚拟牧场海域;步骤二:将历史牧场状态预处理数据输入灾害判断模块中,灾害判断模块判断海洋牧场是否发生灾害,当海洋牧场发生灾害时,通过动作空间模块将一个预设灾后动作输入交互环境模块中对虚拟牧场海域采取预设灾后动作,交互环境模块输出虚拟牧场海域产生的反馈结果;步骤三:获取海洋牧场的实时牧场状态数据,将实时牧场状态数据输入数据处理模块进行数据预处理后获得实时牧场预处理状态数据并输入决策模块中,决策模块输出初步决策数据;步骤四:将初步决策数据输入交互环境模块中,交互环境模块输出虚拟牧场海域的预测状态值和状态变化量;将历史牧场状态预处理数据、虚拟牧场海域产生的反馈结果、预测状态值和状态变化量输入灾害判断模块中,灾害判断模块判断海洋牧场的灾害是否结束从而输出判断结果;步骤五:将灾害判断模块输出的判断结果、虚拟牧场海域的预测状态值和状态变化量输入奖励更新模块中,奖励更新模块计算当次的奖励值;步骤六:根据实时牧场预处理状态数据对灾害判断模块输出的判断结果和虚拟牧场海域的预测状态值进行修正;将修正后的判断结果和预测状态值、初步决策数据、海洋牧场的状态变化量和环境预估误差输入参数优化模块中处理,处理的输出再输入到决策模块中进行更新优化;步骤七:重复步骤一至六对灾害判断模块和决策模块进行重复训练,直至奖励更新模块计算获得的奖励值收敛到最大值,停止灾害判断模块和决策模块的训练,获得训练完成的灾害判断模块和决策模块;步骤八:实时获取海洋牧场的牧场监测状态数据并输入数据处理模块进行数据预处理后获得牧场预处理监测状态数据,将牧场预处理监测状态数据输入训练完成的灾害判断模块,当灾害判断模块判断海洋牧场发生灾害时,将牧场预处理监测状态数据输入训练完成的决策模块中,处理后输出监测决策数据,根据监测决策数据对发生灾害的海洋牧场进行决策。2.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的海洋牧场的历史牧场状态数据和实时牧场状态数据均包括海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据;将历史牧场状态数据输入数据处理模块进行数据预处理后获得历史牧场预处理状态数据,具体为将历史牧场状态数据中的海域多参数传感器数据、浊度传感器数据、流速数据和生态模拟预报数据分别输入数据处理模块中依次进行缺值补充、随机采样和序列化处理,处理后的输出共同构建为历史牧场预处理状态数据。3.根据权利要求1所述的一种基于强化学习的海洋牧场灾害决策方法,其特征在于:所述的步骤一中,将历史牧场状态预处理数据输入交互环境模块中,交互环境模块构建海洋牧场的虚拟牧场海域,具体为交互环境模块根据历史牧场状态预处理数据、海洋牧场汇中
的各个设备的投放布局结构以及海洋牧场所在的海域的二维浅水方程和嵌入式二阶矩湍流闭合子模型进而构建虚拟牧场海域。4.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:张大海夏梅娟宋革联
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1