【技术实现步骤摘要】
本公开涉及人工智能领域,特别是涉及一种强化学习决策系统及决策方法。
技术介绍
1、目前大部分的仿真仍然是通过规则进行,少部分科研机构将仿真结合人工智能技术,通过强化学习训练智能体使得决策具备智能,实现“智能化”的应用。然而上述方法存在很多问题,使得试验与真实需求相差甚远。
2、由于强化学习基于马尔科夫决策过程,因此当前仿真状态环境应是稳态的,然而实际场景极其复杂,不同单元的决策互相影响,对于任何一个决策单元,其状态空间都是非稳态的。强化学习过程中某一时刻的动作是长期决策最优目标下不断“试错”给出的当前最优决策,具备奖励延迟性,对算力要求高,而在实际场景下某一时刻的决策信息量非常大,决策多且呈现包含关系、并列关系、因果关系,如果通过一般强化学习方式计算会出现状态空间、动作空间的维数灾难,无法收敛,得不到结果。由于强化学习通过“试错”探索路径,其产生的各种决策交织在多层级、多智能体的动作空间之内,原本已经是“黑盒”的强化学习决策结论更加无法解释动作意图。且针对某一场景训练一个智能体的使用方式,使得该智能体被限定在训练场景中使用,
...【技术保护点】
1.一种强化学习决策系统,包括:决策模块和分布式强化学习框架;
2.根据权利要求1所述的决策系统,其中,所述决策模块还包括:
3.根据权利要求2所述的决策系统,其中,所述协议模块具体包括:专家规则组件和场景约束组件;
4.根据权利要求2所述的决策系统,所述决策模块还包括:
5.根据权利要求1所述的决策系统,还包括:环境模拟器;
6.根据权利要求5所述的决策系统,还包括:
7.一种利用强化学习决策系统进行决策的方法,其中,所述强化学习决策系统为权利要求1至6中任一项所述的强化学习决策系统,该方法包括
8....
【技术特征摘要】
1.一种强化学习决策系统,包括:决策模块和分布式强化学习框架;
2.根据权利要求1所述的决策系统,其中,所述决策模块还包括:
3.根据权利要求2所述的决策系统,其中,所述协议模块具体包括:专家规则组件和场景约束组件;
4.根据权利要求2所述的决策系统,所述决策模块还包括:
5.根据权利要求1所述的决策系统,还包括:环境模拟器;
6.根据权利要求5...
【专利技术属性】
技术研发人员:李京,
申请(专利权)人:北京旗顺科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。