一种无人车强化学习训练环境构建方法及其训练系统技术方案

技术编号：25985990 阅读：30 留言：0更新日期：2020-10-20 18:53

本发明专利技术公开了一种无人车强化学习训练环境构建方法及其训练系统，属于机器人导航领域与机器人仿真平台领域。包括：构建真实场景与仿真场景数据集；数据集增强；图像域转换算法的训练与模型保存；建立仿真环境模型与强化学习算法的API接口。在仿真环境中训练时，无人车模型上的摄像头采集观测到的仿真环境图像，经过图像域转换网络，转变为模拟的真实场景图片，作为状态输入强化学习网络，经过决策输出动作指令，发布给仿真端的无人车模型。在实际应用时，无人车摄像头采集现实中的真实场景图片，由于强化学习算法在训练时的输入的模拟真实场景图片与现实真实场景图片非常相似，因此训练好的算法可以直接迁移或者微调之后迁移至真实场景当中。

全部详细技术资料下载

【技术实现步骤摘要】
一种无人车强化学习训练环境构建方法及其训练系统
本专利技术涉及机器人导航领域与机器人仿真平台领域，具体地说是一种无人车强化学习训练环境构建方法及其训练系统。
技术介绍
机器人导航即为令其从初始位置到达目标位置，并且在此过程中不与障碍物发生碰撞。传统的机器人导航都是基于地图的。若环境模型(地图)事先已知，则为全局路径规划问题，该方法对机器人系统的计算能力要求较低，并且可以找到最优解。若环境模型事先未知或仅局部可知，则需要机器人在运动过程中，通过固定于其上的激光雷达或者摄像头等传感器感知周围环境，并对周围环境进行实时建模与校正，这种方式称为局部路径规划问题。局部路径规划对机器人系统的计算能力要求较高，并且由于缺乏全局信息，因此规划路径可能不是最优的，甚至可能找不到完整路径。无地图导航指不依赖于先验地图信息进行搜索导航任务。对于该问题，相关研究者提出了Bug2算法，但是该算法只是基于人为设定规则，路径不优并且没有认知过程。对于包括人在内的大部分动物来讲，只需要知道目标的大致方位便可以穿过障碍物到达目标点。受此启发，相关研究者将强化学习方法引入路径规划问题，该方法能够模仿人的思维方式，智能体运动过程中的每一步动作都会得到环境给予的奖惩，通过不断的探索得到一条累计回报值最高的路径，有效地进行无地图导航。由于强化学习的训练过程需要大量试错，试错过程中的错误运动指令可能会导致机器人撞到障碍物，因此直接用真实机器人进行训练并不可行，训练过程需要在仿真环境中实现。若直接采用仿真环境中的数据对强化学习算法进行训练，由于仿...

【技术保护点】
1.一种无人车强化学习训练环境构建方法，其特征在于，包含以下步骤：/n步骤1：在真实无人车应用场景中，使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集；/n步骤2：根据采集到的真实域数据集，建立仿真环境模型以及仿真无人车模型行驶的场景，通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集；/n步骤3：对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强；/n步骤4：建立CycleGAN网络，将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入，对CycleGAN网络进行训练，在训练过程中，每训练一个阶段，保存一次模型，将损失值最小的模型作为最终的CycleGAN模型，存入.ckpt文件中；/n步骤5：建立仿真环境模型与强化学习模块的API接口：env＝GameState(·)用于加载仿真环境模型，env.reset(·)用于初始化仿真无人车模型的状态，env.close(·)用于关闭仿真环境模型，env.step(·)用于执行一步动作；当加载仿真环境时，仿真环境模型与强化学习模块接通，加载训练好的CycleG...

【技术特征摘要】
1.一种无人车强化学习训练环境构建方法，其特征在于，包含以下步骤：
步骤1：在真实无人车应用场景中，使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集；
步骤2：根据采集到的真实域数据集，建立仿真环境模型以及仿真无人车模型行驶的场景，通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集；
步骤3：对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强；
步骤4：建立CycleGAN网络，将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入，对CycleGAN网络进行训练，在训练过程中，每训练一个阶段，保存一次模型，将损失值最小的模型作为最终的CycleGAN模型，存入.ckpt文件中；
步骤5：建立仿真环境模型与强化学习模块的API接口：env＝GameState(·)用于加载仿真环境模型，env.reset(·)用于初始化仿真无人车模型的状态，env.close(·)用于关闭仿真环境模型，env.step(·)用于执行一步动作；当加载仿真环境时，仿真环境模型与强化学习模块接通，加载训练好的CycleGAN模型，通过仿真无人车模型的仿真车载摄像头采集真实的仿真环境图片作为CycleGAN模型的输入，得到模拟的真实场景图片，将模拟的真实场景图片作为强化学习模块的输入进行强化训练；当关闭仿真环境模型时，仿真环境模型与强化学习模块断开连接。

2.根据权利要求1所述的一种无人车强化学习训练环境构建方法，其特征在于，所述的步骤1和步骤2中，将采集到的真实场景图片和仿真环境图片压缩为256×256×3的尺寸。

3.根据权利要求1所述的一种无人车强化学习训练环境构建方法，其特征在于，步骤2中所述的仿真无人车模型包括二轮车和麦克纳姆轮车。

4.根据权利要求1所述的一种无人车强化学习训练环境构建方法，其特征在于，步骤3所述的数据增强采用仿射变换、高斯模糊和椒盐噪声中的一种或多种。

5.根据权利要求1所述的一种无人车强化学习训练环境构建方法，其特征在于，步骤4所述的CycleGAN网络在训练过程的损失函数包括生成对抗损失和循环一致性损失。

6.根据权利要求1所述的一种无人车强化学习训练环境构建方法，其特征在于，所述的步骤5中，采用new_state,reward,done,info＝env.step(action)表示执行动作，其中new_state表示由CycleGAN模型输出的模拟的真实场景图片，re...

【专利技术属性】
技术研发人员：蒋焕煜，陈词，马保建，娄明照，陆金科，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人