一种基于多智体、单环境、多环境的无人驾驶决策方法技术

技术编号：41012764 阅读：9 留言：0更新日期：2024-04-18 21:49

本发明专利技术公开了一种基于多智体、单环境、多环境的无人驾驶决策方法，涉及属于人工智能控制领域，构建多智体决策模型，先进行单环境训练，收敛后再进行多环境训练，在单环境训练过程，将环境中的车辆要素转化为可训练智体，根据虚拟自博弈的纳什均衡思想，在传统演员‑评论家模型基础上加入了对手模型，将单智体模型转变为多智体模型，单智体决策训练转变为多智体决策训练，增加单环境中的训练数据多样性，提高训练效率，同时智体之间相互制约也避免决策方法陷入过拟合；在多环境训练过程，建立基于狄利克雷分布的多环境训练分配机制，遏制环境之间的相互影响的同时提升决策方法泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，尤其涉及一种基于多智体、单环境、多环境的无人驾驶决策方法。

技术介绍

1、无人汽车驾驶技术是当前解决车辆点对点通行安全问题、效率问题的关键技术，而无人驾驶技术中的决策系统是决定无人驾驶技术能否成功应用的重中之重。在应对复杂的无人驾驶环境，决策方法的泛化性能决定了决策系统的适应性，因此十分关键。当前端到端的决策方法中以基于深度学习的强化学习方法为主，如图1所示。强化学习方法需要依靠与环境的互动来获取数据并进行训练,大多使用单环境训练或者多环境训练方法，主要有以下两个问题。在单环境训练中，数据获取效率低下，在数据数量、种类不足的情况下，训练得到的决策系统往往表现不佳，而为了提升性能往往需要更长时间的训练，导致决策方法过拟合，对环境适应性下降，泛化性能较差。为了增加泛化性能，通常需要采取多个不同的环境进行训练。

2、然而由于神经网络固有的“灾难性遗忘”缺陷，决策方法泛化性能往往无法正常提升。

技术实现思路

1、本专利技术所要解决的技术问题是针对
技术介绍
的不足提...

【技术保护点】

1.一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：构建多智体强化学习决策模型，训练时包括单环境训练和多环境训练，并且依靠改进的单环境训练法来进行多环境训练，具体包含如下步骤：

2.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：在步骤1中，构建基于多层感知机MLP的强化学习决策模型，采用对手-演员-评论家模型。

3.根据权利要求2所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：所述步骤1具体包含如下步骤；

4.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特...

【技术特征摘要】

2.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：在步骤1中，构建基于多层感知机mlp的强化学习决策模型，采用对手-演员-评论家模型。

3.根据权利要求2所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：所述步骤1具体包含如下步骤；

4.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：所述步骤2具体包含如下步骤，

5.根据权利要求1所述的一种基于多智体、单环境、多环境的无人驾驶决策方法，其特征在于：所述步骤3具体包含如下步骤，

6.根据权利要求5所述的一种基于多智体、单环境...

【专利技术属性】
技术研发人员：林瑞玉，潘逸倩，王卫锋，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人