【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种基于多智体、单环境、多环境的无人驾驶决策方法。
技术介绍
1、无人汽车驾驶技术是当前解决车辆点对点通行安全问题、效率问题的关键技术,而无人驾驶技术中的决策系统是决定无人驾驶技术能否成功应用的重中之重。在应对复杂的无人驾驶环境,决策方法的泛化性能决定了决策系统的适应性,因此十分关键。当前端到端的决策方法中以基于深度学习的强化学习方法为主,如图1所示。强化学习方法需要依靠与环境的互动来获取数据并进行训练,大多使用单环境训练或者多环境训练方法,主要有以下两个问题。在单环境训练中,数据获取效率低下,在数据数量、种类不足的情况下,训练得到的决策系统往往表现不佳,而为了提升性能往往需要更长时间的训练,导致决策方法过拟合,对环境适应性下降,泛化性能较差。为了增加泛化性能,通常需要采取多个不同的环境进行训练。
2、然而由于神经网络固有的“灾难性遗忘”缺陷,决策方法泛化性能往往无法正常提升。
技术实现思路
1、本专利技术所要解决的技术问题是针对
技术介绍
的不足提 ...
【技术保护点】
1.一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:构建多智体强化学习决策模型,训练时包括单环境训练和多环境训练,并且依靠改进的单环境训练法来进行多环境训练,具体包含如下步骤:
2.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:在步骤1中,构建基于多层感知机MLP的强化学习决策模型,采用对手-演员-评论家模型。
3.根据权利要求2所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:所述步骤1具体包含如下步骤;
4.根据权利要求1所述的一种基于多智体、单环境、多环境的无
...【技术特征摘要】
1.一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:构建多智体强化学习决策模型,训练时包括单环境训练和多环境训练,并且依靠改进的单环境训练法来进行多环境训练,具体包含如下步骤:
2.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:在步骤1中,构建基于多层感知机mlp的强化学习决策模型,采用对手-演员-评论家模型。
3.根据权利要求2所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:所述步骤1具体包含如下步骤;
4.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:所述步骤2具体包含如下步骤,
5.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法,其特征在于:所述步骤3具体包含如下步骤,
6.根据权利要求5所述的一种基于多智体、单环境...
【专利技术属性】
技术研发人员:林瑞玉,潘逸倩,王卫锋,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。