当前位置: 首页 > 专利查询>浙江大学专利>正文

一种无人车强化学习训练环境构建方法及其训练系统技术方案

技术编号:25985990 阅读:30 留言:0更新日期:2020-10-20 18:53
本发明专利技术公开了一种无人车强化学习训练环境构建方法及其训练系统,属于机器人导航领域与机器人仿真平台领域。包括:构建真实场景与仿真场景数据集;数据集增强;图像域转换算法的训练与模型保存;建立仿真环境模型与强化学习算法的API接口。在仿真环境中训练时,无人车模型上的摄像头采集观测到的仿真环境图像,经过图像域转换网络,转变为模拟的真实场景图片,作为状态输入强化学习网络,经过决策输出动作指令,发布给仿真端的无人车模型。在实际应用时,无人车摄像头采集现实中的真实场景图片,由于强化学习算法在训练时的输入的模拟真实场景图片与现实真实场景图片非常相似,因此训练好的算法可以直接迁移或者微调之后迁移至真实场景当中。

【技术实现步骤摘要】
一种无人车强化学习训练环境构建方法及其训练系统
本专利技术涉及机器人导航领域与机器人仿真平台领域,具体地说是一种无人车强化学习训练环境构建方法及其训练系统。
技术介绍
机器人导航即为令其从初始位置到达目标位置,并且在此过程中不与障碍物发生碰撞。传统的机器人导航都是基于地图的。若环境模型(地图)事先已知,则为全局路径规划问题,该方法对机器人系统的计算能力要求较低,并且可以找到最优解。若环境模型事先未知或仅局部可知,则需要机器人在运动过程中,通过固定于其上的激光雷达或者摄像头等传感器感知周围环境,并对周围环境进行实时建模与校正,这种方式称为局部路径规划问题。局部路径规划对机器人系统的计算能力要求较高,并且由于缺乏全局信息,因此规划路径可能不是最优的,甚至可能找不到完整路径。无地图导航指不依赖于先验地图信息进行搜索导航任务。对于该问题,相关研究者提出了Bug2算法,但是该算法只是基于人为设定规则,路径不优并且没有认知过程。对于包括人在内的大部分动物来讲,只需要知道目标的大致方位便可以穿过障碍物到达目标点。受此启发,相关研究者将强化学习方法引入路径规划问题,该方法能够模仿人的思维方式,智能体运动过程中的每一步动作都会得到环境给予的奖惩,通过不断的探索得到一条累计回报值最高的路径,有效地进行无地图导航。由于强化学习的训练过程需要大量试错,试错过程中的错误运动指令可能会导致机器人撞到障碍物,因此直接用真实机器人进行训练并不可行,训练过程需要在仿真环境中实现。若直接采用仿真环境中的数据对强化学习算法进行训练,由于仿真环境与现实场景存在差异,训练好的算法直接迁移到现实场景中进行应用会导致算法失效,严重的话可能会导致无人车撞到障碍物,造成财产损失。
技术实现思路
为了解决现有技术中在仿真环境训练好的强化学习策略难以直接迁移至真实环境应用的缺陷,本专利技术提供一种无人车强化学习训练环境构建方法及其训练系统,利用图像域转化算法,将训练环境中的图片转换为模拟的真实场景中的图片,将其作为状态输入强化学习算法,进而得到无人车每一步动作决策。在真实场景应用时,由于真实场景图片与训练过程中输入的模拟真实场景图片具有较大相似性,因此在仿真环境中训练好的强化学习网络可以直接迁移或者经过微调之后迁移至真实场景中。为了达到本专利技术的目的,本专利技术采取如下技术方案:一种无人车强化学习训练环境构建方法,其特征在于,包含以下步骤:步骤1:在真实无人车应用场景中,使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集;步骤2:根据采集到的真实域数据集,建立仿真环境模型以及仿真无人车模型行驶的场景,通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集;步骤3:对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强;步骤4:建立CycleGAN网络,将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入,对CycleGAN网络进行训练,在训练过程中,每训练一个阶段,保存一次模型,将损失值最小的模型作为最终的CycleGAN模型,存入.ckpt文件中;步骤5:建立仿真环境模型与强化学习模块的API接口:env=GameState(·)用于加载仿真环境模型,env.reset(·)用于初始化仿真无人车模型的状态,env.close(·)用于关闭仿真环境模型,env.step(·)用于执行一步动作;当加载仿真环境时,仿真环境模型与强化学习模块接通,加载训练好的CycleGAN模型,通过仿真无人车模型的仿真车载摄像头采集真实的仿真环境图片作为CycleGAN模型的输入,得到模拟的真实场景图片,将模拟的真实场景图片作为强化学习模块的输入进行强化训练;当关闭仿真环境模型时,仿真环境模型与强化学习模块断开连接。与现有的技术相比,本专利技术的有益效果是:(1)本专利技术将图像域转化算法引入到了训练系统中,以CycleGAN网络算法为例,在仿真环境中采集到的仿真环境图片x可以被生成器G处理为模拟的真实场景图像fake_y,实现了仿真域到真实域的图像转化;并且由于生成器G和判别器Dx的联合对抗训练,使得模拟的真实场景图像fake_y与现实的真实场景图像y具有较大的相似性,因此训练好的强化学习算法可以直接迁移或者经过微调之后迁移至真实环境当中,实现sim2real。(2)通过本专利技术的方法构建的训练系统中,仿真端建立的仿真环境模型包含两种无人车模型(二轮车与麦克纳姆轮车)与三种环境传感器(摄像机、激光雷达和超声波距离传感器),其中,二轮车适合输出连续动作控制指令的强化学习算法,如基于策略梯度的强化学习算法,也可将其转向角与速度进行离散化,用于匹配输出离散动作控制指令的强化学习算法,如基于值函数的强化学习算法;麦克纳姆轮车具有全方位运动特性,既适用于输出连续动作又适用于输出离散动作控制指令的强化学习算法,能够满足不同训练场景的要求。(3)本专利技术通过设计API接口实现了Client端(Python端)和Server端(V-rep端)之间的通讯。附图说明图1是本专利技术的具体实施流程图;图2是图像域转化网络结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。本专利技术中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。下面结合附图对本专利技术进行进一步地描述,如图1所示,一种无人车强化学习训练环境构建方法,包含以下步骤:步骤1:在真实无人车应用场景中,使用真实车载摄像头采集图片作为真实域数据集,真实域数据集应采用无人车第一人称视角进行拍摄,拍摄1000张图像,并将数据集中每一幅图片压缩成256pixel×256pixel×3channels大小的尺寸。步骤2:打开V-rep软件,并在V-rep中搭建与真实应用场景类似的仿真场景,使用仿真车载摄像头(VisionSensor)采集图片作为仿真域数据集,仿真车载摄像头应固定在仿真无人车模型正前方,采集1000张图像,所采集的图片大小应为256pixel×256pixel×3channels,每幅图片不必要求与步骤1采集的图片一一对应。所搭建的仿真场景不仅应包括无人车所处环境的建模,还应包括仿真无人车模型,具体来说,仿真无人车模型有二轮车和麦克纳姆轮车两种可供选择。其中,二轮车较为适合输出连续动作控制指令的强化学习算法,如基于策略梯度的强化学习算法,也可将其转向角与速度进行离散化,用于匹配输出离散动作控制指令的强化学习算法,如基于值函数的强化学习算法。麦克纳姆轮车具有全方位运动特性,既适用于输出连续动作又适用于输出离散动作控制指令的强化学习算法。仿真无人车模型除配备VisionSensor外,还可根据需要配备SICKTiM310Fast激光雷达,ProximitySensor用于模拟超声波距离传感器。步骤3:图像域转化算法数据集的增强。该数据集包括步骤1生成的本文档来自技高网
...

【技术保护点】
1.一种无人车强化学习训练环境构建方法,其特征在于,包含以下步骤:/n步骤1:在真实无人车应用场景中,使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集;/n步骤2:根据采集到的真实域数据集,建立仿真环境模型以及仿真无人车模型行驶的场景,通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集;/n步骤3:对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强;/n步骤4:建立CycleGAN网络,将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入,对CycleGAN网络进行训练,在训练过程中,每训练一个阶段,保存一次模型,将损失值最小的模型作为最终的CycleGAN模型,存入.ckpt文件中;/n步骤5:建立仿真环境模型与强化学习模块的API接口:env=GameState(·)用于加载仿真环境模型,env.reset(·)用于初始化仿真无人车模型的状态,env.close(·)用于关闭仿真环境模型,env.step(·)用于执行一步动作;当加载仿真环境时,仿真环境模型与强化学习模块接通,加载训练好的CycleGAN模型,通过仿真无人车模型的仿真车载摄像头采集真实的仿真环境图片作为CycleGAN模型的输入,得到模拟的真实场景图片,将模拟的真实场景图片作为强化学习模块的输入进行强化训练;当关闭仿真环境模型时,仿真环境模型与强化学习模块断开连接。/n...

【技术特征摘要】
1.一种无人车强化学习训练环境构建方法,其特征在于,包含以下步骤:
步骤1:在真实无人车应用场景中,使用真实无人车的真实车载摄像头采集真实场景图片作为真实域数据集;
步骤2:根据采集到的真实域数据集,建立仿真环境模型以及仿真无人车模型行驶的场景,通过仿真无人车模型的仿真车载摄像头采集仿真环境图片作为仿真域数据集;
步骤3:对步骤1获得的真实域数据集和步骤2获得的仿真域数据集进行数据增强;
步骤4:建立CycleGAN网络,将增强后的真实域数据集和增强后的仿真域数据集分别作为CycleGAN网络中两个生成器的输入,对CycleGAN网络进行训练,在训练过程中,每训练一个阶段,保存一次模型,将损失值最小的模型作为最终的CycleGAN模型,存入.ckpt文件中;
步骤5:建立仿真环境模型与强化学习模块的API接口:env=GameState(·)用于加载仿真环境模型,env.reset(·)用于初始化仿真无人车模型的状态,env.close(·)用于关闭仿真环境模型,env.step(·)用于执行一步动作;当加载仿真环境时,仿真环境模型与强化学习模块接通,加载训练好的CycleGAN模型,通过仿真无人车模型的仿真车载摄像头采集真实的仿真环境图片作为CycleGAN模型的输入,得到模拟的真实场景图片,将模拟的真实场景图片作为强化学习模块的输入进行强化训练;当关闭仿真环境模型时,仿真环境模型与强化学习模块断开连接。


2.根据权利要求1所述的一种无人车强化学习训练环境构建方法,其特征在于,所述的步骤1和步骤2中,将采集到的真实场景图片和仿真环境图片压缩为256×256×3的尺寸。


3.根据权利要求1所述的一种无人车强化学习训练环境构建方法,其特征在于,步骤2中所述的仿真无人车模型包括二轮车和麦克纳姆轮车。


4.根据权利要求1所述的一种无人车强化学习训练环境构建方法,其特征在于,步骤3所述的数据增强采用仿射变换、高斯模糊和椒盐噪声中的一种或多种。


5.根据权利要求1所述的一种无人车强化学习训练环境构建方法,其特征在于,步骤4所述的CycleGAN网络在训练过程的损失函数包括生成对抗损失和循环一致性损失。


6.根据权利要求1所述的一种无人车强化学习训练环境构建方法,其特征在于,所述的步骤5中,采用new_state,reward,done,info=env.step(action)表示执行动作,其中new_state表示由CycleGAN模型输出的模拟的真实场景图片,re...

【专利技术属性】
技术研发人员:蒋焕煜陈词马保建娄明照陆金科
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1