System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度强化学习的,特别是涉及一种仿真环境建模方法、系统、存储介质、电子设备。
技术介绍
1、近年来,由于深度强化学习在游戏决策、机器人控制等领域大放异彩,人们逐渐尝试将深度强化学习应用到实际的工业生产控制过程当中,以解决实际工业系统的实时变化和波动性问题,实现生产控制的自动化和智能化,提高系统运行的效率。
2、当前,在深度强化学习与实际工业生产控制结合的过程中仍面临着许多问题。一方面,工业系统通常非常复杂,具有大量的变量和相互关联的因素,因此很难建立完备的仿真环境供深度强化学习算法训练。另一方面,仿真环境的奖励函数设计对算法的性能十分关键,其直接影响着智能体学习和决策的效果,设计不当的奖励函数会引导策略往错误的方向发展。除此之外,从工业领域的安全性角度出发,深度强化学习算法在实际应用中应排除错误动作发生的可能性,以实现工业系统安全、稳定运行。
技术实现思路
1、鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种仿真环境建模方法、系统、存储介质、电子设备,能够基于深度强化学习的方式实现仿真环境建模,有效保证了系统的安全有效运行。
2、第一方面,本专利技术提供一种仿真环境建模方法,所述方法包括以下步骤:基于物理模型构建仿真环境模型;构建仿真环境模型的动作空间、状态空间;构建所述仿真环境模型的奖励函数;基于所述动作空间、所述状态空间和所述奖励函数训练所述仿真环境模型,并在训练所述仿真环境模型的过程中基于机理设计动作约束;构建所述仿真环境模型的安全
3、在第一方面的一种实现方式中,基于物理模型构建仿真环境模型包括以下步骤:
4、获取所述仿真环境的物理模型;
5、建立所述仿真环境的组件机理模型;
6、构建所述仿真环境的控制优化目标。
7、在第一方面的一种实现方式中,构建仿真环境模型的动作空间、状态空间包括以下步骤:
8、基于所述仿真环境模型的状态组件的状态参数构建所述仿真环境模型的状态空间;
9、基于所述仿真环境模型的动作组件的动作参数构建所述仿真环境模型的动作空间。
10、在第一方面的一种实现方式中,构建所述仿真环境模型的奖励函数包括以下步骤:
11、获取所述仿真环境所需学习的策略;
12、基于所述策略构建所述仿真环境的各个子奖励函数,基于所述子奖励函数之和构建所述奖励函数。
13、在第一方面的一种实现方式中,在训练所述仿真环境模型的过程中基于机理设计动作约束包括以下步骤:
14、确定动作的约束方式;
15、根据所述约束方式,设计对应的约束流程。
16、在第一方面的一种实现方式中,根据所述约束方式,设计对应的约束流程包括:
17、为不同维度的动作设置优先级;
18、在产生动作冲突时,根据动作优先级来选择动作。
19、在第一方面的一种实现方式中,构建所述仿真环境模型的安全性规范机制包括以下步骤:
20、构建仿真环境的安全性检测机制,其中当某一动作对应的参数偏离目标值预设阈值时,舍弃所述动作;
21、构建仿真环境的动作规范策略,其中当某一动作存在安全性问题时,构建相应的确定性策略来代替所述仿真环境模型的原有策略。
22、第二方面,本专利技术提供一种仿真环境建模系统,所述系统包括模型构建模块、空间构建模块、奖励构建模块、训练模块和安全构建模块;
23、所述模型构建模块用于基于物理模型构建仿真环境模型;
24、所述空间构建模块用于构建仿真环境模型的动作空间、状态空间;
25、所述奖励构建模块用于构建所述仿真环境模型的奖励函数;
26、所述训练模块用于基于所述动作空间、所述状态空间和所述奖励函数训练所述仿真环境模型,并在训练所述仿真环境模型的过程中基于机理设计动作约束;
27、所述安全构建模块用于构建所述仿真环境模型的安全性规范机制。
28、第三方面,本专利技术提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的仿真环境建模方法。
29、第四方面,本专利技术提供一种电子设备,包括:处理器及存储器;
30、所述存储器用于存储计算机程序;
31、所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的仿真环境建模方法。
32、如上所述,本专利技术的仿真环境建模方法、系统、存储介质、电子设备,具有以下有益效果:
33、(1)以基于机理的方式定义了工业生产控制当中的深度强化学习仿真环境,使复杂、多变的物理模型抽象成简单、清晰的仿真模型,极大地提高了深度强化学习赋能工业生产自动化、智能化的可能;
34、(2)以实际场景、任务需求、最优策略的角度出发设计深度强化学习仿真环境的奖励函数,使仿真环境模型能学到更高效、更智能的策略;
35、(3)在算法训练过程中,设计了基于机理的动作约束机制,极大提高了算法的探索效率与训练效率;
36、(4)在算法应用过程中,为了实际工业生产的安全性,引入了算法安全性规范机制,极大保护了工业系统安全、稳定地运行。
本文档来自技高网...【技术保护点】
1.一种仿真环境建模方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的仿真环境建模方法,其特征在于:基于物理模型构建仿真环境模型包括以下步骤:
3.根据权利要求1所述的仿真环境建模方法,其特征在于:构建仿真环境模型的动作空间、状态空间包括以下步骤:
4.根据权利要求1所述的仿真环境建模方法,其特征在于:构建所述仿真环境模型的奖励函数包括以下步骤:
5.根据权利要求1所述的仿真环境建模方法,其特征在于:在训练所述仿真环境模型的过程中基于机理设计动作约束包括以下步骤:
6.根据权利要求5所述的仿真环境建模方法,其特征在于:根据所述约束方式,设计对应的约束流程包括:
7.根据权利要求1所述的仿真环境建模方法,其特征在于:构建所述仿真环境模型的安全性规范机制包括以下步骤:
8.一种仿真环境建模系统,其特征在于:所述系统包括模型构建模块、空间构建模块、奖励构建模块、训练模块和安全构建模块;
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7
10.一种电子设备,其特征在于,包括:处理器及存储器;
...【技术特征摘要】
1.一种仿真环境建模方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的仿真环境建模方法,其特征在于:基于物理模型构建仿真环境模型包括以下步骤:
3.根据权利要求1所述的仿真环境建模方法,其特征在于:构建仿真环境模型的动作空间、状态空间包括以下步骤:
4.根据权利要求1所述的仿真环境建模方法,其特征在于:构建所述仿真环境模型的奖励函数包括以下步骤:
5.根据权利要求1所述的仿真环境建模方法,其特征在于:在训练所述仿真环境模型的过程中基于机理设计动作约束包括以下步骤:
6...
【专利技术属性】
技术研发人员:马崛,宁德军,
申请(专利权)人:中国科学院上海高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。