强化学习决策系统及决策方法技术方案

技术编号:40275761 阅读:27 留言:0更新日期:2024-02-02 23:02
本公开涉及一种强化学习决策系统及决策方法。决策系统包括决策模块和分布式强化学习框架。决策模块包括至少一个决策智能体;至少一个决策智能体是在预设环境中基于强化学习算法训练获得的,用于与预设环境进行交互输出决策;强化学习算法是决策系统根据所述预设环境自动选择的;分布式强化学习框架,用于决策模块在强化学习决策系统上的自动部署和调度。本公开的决策系统和决策方法实现了决策场景的快速迁移,提升了决策智能化能力,满足了用户快速构建新场景的需求。

【技术实现步骤摘要】

本公开涉及人工智能领域,特别是涉及一种强化学习决策系统及决策方法


技术介绍

1、目前大部分的仿真仍然是通过规则进行,少部分科研机构将仿真结合人工智能技术,通过强化学习训练智能体使得决策具备智能,实现“智能化”的应用。然而上述方法存在很多问题,使得试验与真实需求相差甚远。

2、由于强化学习基于马尔科夫决策过程,因此当前仿真状态环境应是稳态的,然而实际场景极其复杂,不同单元的决策互相影响,对于任何一个决策单元,其状态空间都是非稳态的。强化学习过程中某一时刻的动作是长期决策最优目标下不断“试错”给出的当前最优决策,具备奖励延迟性,对算力要求高,而在实际场景下某一时刻的决策信息量非常大,决策多且呈现包含关系、并列关系、因果关系,如果通过一般强化学习方式计算会出现状态空间、动作空间的维数灾难,无法收敛,得不到结果。由于强化学习通过“试错”探索路径,其产生的各种决策交织在多层级、多智能体的动作空间之内,原本已经是“黑盒”的强化学习决策结论更加无法解释动作意图。且针对某一场景训练一个智能体的使用方式,使得该智能体被限定在训练场景中使用,一旦场景更换,难以实本文档来自技高网...

【技术保护点】

1.一种强化学习决策系统,包括:决策模块和分布式强化学习框架;

2.根据权利要求1所述的决策系统,其中,所述决策模块还包括:

3.根据权利要求2所述的决策系统,其中,所述协议模块具体包括:专家规则组件和场景约束组件;

4.根据权利要求2所述的决策系统,所述决策模块还包括:

5.根据权利要求1所述的决策系统,还包括:环境模拟器;

6.根据权利要求5所述的决策系统,还包括:

7.一种利用强化学习决策系统进行决策的方法,其中,所述强化学习决策系统为权利要求1至6中任一项所述的强化学习决策系统,该方法包括

8....

【技术特征摘要】

1.一种强化学习决策系统,包括:决策模块和分布式强化学习框架;

2.根据权利要求1所述的决策系统,其中,所述决策模块还包括:

3.根据权利要求2所述的决策系统,其中,所述协议模块具体包括:专家规则组件和场景约束组件;

4.根据权利要求2所述的决策系统,所述决策模块还包括:

5.根据权利要求1所述的决策系统,还包括:环境模拟器;

6.根据权利要求5...

【专利技术属性】
技术研发人员:李京
申请(专利权)人:北京旗顺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1