一种基于课程强化学习的机器人策略训练系统及训练方法技术方案

技术编号:35923809 阅读:21 留言:0更新日期:2022-12-10 11:12
一种基于课程强化学习的机器人策略训练系统及训练方法,它属于无人系统自主决策与控制领域。本发明专利技术解决了现有方法在针对于机器人的策略训练方面难以获得好的决策与控制效果的问题。本发明专利技术针对异构多机器人不同类型的任务模式,以复杂环境的动力学模型为输入,构建基于课程学习的多机器人联合任务决策课程学习训练架构。考虑训练过程中任务难度的循序渐进,建立基于复杂环境动力学模型的参数自主生成算法和目标自主生成算法。然后在此基础上,建立课程难度评估与标校算法,反馈给自优化强化学习算法。本发明专利技术方法可以应用于无人系统的自主决策与控制。自主决策与控制。自主决策与控制。

【技术实现步骤摘要】
一种基于课程强化学习的机器人策略训练系统及训练方法


[0001]本专利技术属于无人系统自主决策与控制领域,具体涉及一种基于课程强化学习的机器人策略训练系统及训练方法。

技术介绍

[0002]多机器人自主决策是近年来学者研究的热点问题之一,在军事、工业等领域都有着广泛的应用。其中自主决策策略的训练往往通过机器学习实现。课程学习是在强化学习的基础上借鉴了人类由易到难学习的想法,模型先学习容易的样本,然后逐步提高样本难度,可以得到更高的训练速度与更好的训练效果。课程学习的核心在于训练任务的自主生成,和任务难度的自主排序。关于任务自主生成的研究目前比较有限,提出的方法有无监督的方式训练逐步通用化的问题求解器;以最终任务为模板设定参数向量,调节参数以获得中间任务。但是现有的任务自主生成方法在针对机器人策略训练任务生成方面的有效性较差。关于任务难度的自主排序的主流方法有仅考虑对最终任务的样本进行重新排序,而不改变任务本身;改变MDP某些方面来创造出具有不同MDP结构的中间任务;考虑人类对任务难易度的评估,利用人在环路的方法进行排序。但是采用现有自主排序方法所获得的排序结果的准确性欠佳,而且部分现有的自主排序方法是和任务生成结合在一起的,并不适用于针对于机器人的策略训练。
[0003]因此,综上所述,现有的任务自主生成方法和现有的自主排序方法在针对于机器人的策略训练方面表现欠佳,难以获得较好的决策与控制效果。

技术实现思路

[0004]本专利技术的目的是为解决由于现有的任务自主生成方法在针对机器人策略训练任务生成方面的有效性差以及现有自主排序方法所获得的排序结果的准确性差,导致现有方法在针对于机器人的策略训练方面难以获得好的决策与控制效果的问题,而提出的一种基于课程强化学习的机器人策略训练系统及训练方法。
[0005]本专利技术为解决上述技术问题所采取的技术方案是:
[0006]基于本专利技术的一个方面,一种基于课程强化学习的机器人策略训练系统,所述系统包括算法运行容器模块、训练课程生成模块和反馈评价模块,其中:
[0007]所述训练课程生成模块分为任务生成器和任务比较器两部分,任务生成器用于自主生成课程任务场景;任务比较器用于通过神经网络对任务进行困难度由易到难的排序,获得课程;
[0008]所述算法运行容器模块用于为目标识别算法、机器人路径规划算法以及博弈对抗决策算法配置运行容器,以根据训练课程生成模块获得的课程对目标识别算法、机器人路径规划算法以及博弈对抗决策算法进行自优化的强化学习算法训练;
[0009]所述反馈评价模块用于根据机器人的训练误差进行机器人自组织强化训练,并根据机器人自组织强化训练结果输出机器人对于任务执行情况的评分,再将机器人对于任务
执行情况的评分反馈给算法运行容器模块以指导自优化的强化学习算法训练。
[0010]进一步地,所述目标识别算法为YOLOv3算法,机器人路径规划算法为人工势场算法,博弈对抗决策算法为PPO算法。
[0011]基于本专利技术的另一个方面,一种基于课程强化学习的机器人策略训练方法,所述方法具体包括以下步骤:
[0012]步骤一、利用任务生成器进行真实场景三维检测重建以及任务场景智能环境自主生成;
[0013]步骤二、利用任务排序器对任务场景进行从易到难的排序获得训练课程;
[0014]步骤三、算法运行容器模块中的目标识别算法、机器人路径规划算法以及博弈对抗决策算法基于步骤二生成的训练课程进行自优化的强化学习训练;
[0015]步骤四、反馈评价模块根据步骤三中的强化学习训练结果输出机器人对于任务执行情况的评分,再将机器人对于任务执行情况的评分反馈给算法运行容器模块,来指导目标识别算法、机器人路径规划算法以及博弈对抗决策算法的训练。
[0016]进一步地,所述真实场景三维检测重建的具体过程为:
[0017]步骤1、深度图像获取
[0018]通过视觉相机和激光雷达拍摄同一场景在不同角度和照度下的深度图像;
[0019]步骤2、深度图像的预处理
[0020]利用高斯滤波对深度图像进行去噪,再利用DeepFillv2算法对去噪后的深度图像进行修复,获得恢复后的深度图像,即预处理后的深度图像;
[0021]步骤3、由预处理后的深度图像计算点云数据
[0022]根据成像原理计算世界坐标系与图像像素坐标系之间的转换关系,利用计算出的转换关系获得预处理后深度图像在世界坐标系下的点云数据;并对获得的点云数据进行畸变补偿,获得畸变补偿后的点云数据;
[0023]步骤4、点云配准
[0024]以场景的公共部分为基准,根据每一帧的平移向量与旋转矩阵将不同角度和照度下的多帧预处理后深度图像所对应的畸变补偿后点云坐标匹配叠加到世界坐标系中,获得配准后的点云空间;
[0025]步骤5、配准后点云数据的融合
[0026]以传感器的初始位置为原点构造体积网格,利用网格将配准后点云空间分割成各个立方体,即将配准后点云空间分割为各个体素;通过为各个体素赋予距离场值来模拟表面;
[0027]步骤6、表面生成
[0028]采用MC算法对步骤5所得的结果进行处理,生成三维表面,即得到任务场景地图。
[0029]进一步地,所述步骤6的具体过程为:
[0030]将数据场中八个位置相邻的数据分别存放在一个体素的八个顶点处,对于一个边界体素上一条棱的两个端点,选择势值T之后,当其中一个端点大于T而另一个端点小于T时,则这条棱上存在着等值面的一个顶点,遍历该体素中的全部十二条棱之后,得到该体素中十二条棱和等值面的交点,构造该体素中的三角面片,该体素中的所有三角面片把该体素分成了等值面内与等值面外两块区域,连接该体素中的所有三角面片即构成该体素的等
值面,合并所有体素的等值面即形成完整的三维表面,将形成的完整三维表面作为任务场景地图。
[0031]进一步地,所述任务场景智能环境自主生成的具体过程为:
[0032]步骤1)任务场景分割生成
[0033]利用步骤5中分割后获得的各个体素,构建点云中各点周围体素的邻接矩阵,根据邻接矩阵对目标边缘加权,完成点云中重叠目标的分离,即将整体点云分割为各个物体3D点云模型;
[0034]再将分割后的物体3D点云模型与任务场景地图进行数据关联,判断分割出的各个目标类别,并将目标类别加入到模型库中;
[0035]将非地面点云聚类分割成不同类别的点云簇,即构建出整体三维语义地图;
[0036]步骤2)任务目标自动化生成
[0037]所述步骤2)的具体过程为:
[0038]步骤S1、将三维语义地图投影到水平地面上,得到二维地图;
[0039]步骤S2、根据二维地图大小,通过产生随机种子表征随机点的位置,并将产生的随机种子输入到沃洛诺伊

迪利克雷镶嵌算法;
[0040]步骤S3、沃洛诺伊

迪利克雷镶嵌算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于课程强化学习的机器人策略训练系统,其特征在于,所述系统包括算法运行容器模块、训练课程生成模块和反馈评价模块,其中:所述训练课程生成模块分为任务生成器和任务比较器两部分,任务生成器用于自主生成课程任务场景;任务比较器用于通过神经网络对任务进行困难度由易到难的排序,获得课程;所述算法运行容器模块用于为目标识别算法、机器人路径规划算法以及博弈对抗决策算法配置运行容器,以根据训练课程生成模块获得的课程对目标识别算法、机器人路径规划算法以及博弈对抗决策算法进行自优化的强化学习算法训练;所述反馈评价模块用于根据机器人的训练误差进行机器人自组织强化训练,并根据机器人自组织强化训练结果输出机器人对于任务执行情况的评分,再将机器人对于任务执行情况的评分反馈给算法运行容器模块以指导自优化的强化学习算法训练。2.根据权利要求1所述的一种基于课程强化学习的机器人策略训练系统,其特征在于,所述目标识别算法为YOLOv3算法,机器人路径规划算法为人工势场算法,博弈对抗决策算法为PPO算法。3.基于权利要求1所述的一种基于课程强化学习的机器人策略训练系统的训练方法,其特征在于,所述方法具体包括以下步骤:步骤一、利用任务生成器进行真实场景三维检测重建以及任务场景智能环境自主生成;步骤二、利用任务排序器对任务场景进行从易到难的排序获得训练课程;步骤三、算法运行容器模块中的目标识别算法、机器人路径规划算法以及博弈对抗决策算法基于步骤二生成的训练课程进行自优化的强化学习训练;步骤四、反馈评价模块根据步骤三中的强化学习训练结果输出机器人对于任务执行情况的评分,再将机器人对于任务执行情况的评分反馈给算法运行容器模块,来指导目标识别算法、机器人路径规划算法以及博弈对抗决策算法的训练。4.根据权利要求3所述的一种基于课程强化学习的机器人策略训练系统的训练方法,其特征在于,所述真实场景三维检测重建的具体过程为:步骤1、深度图像获取通过视觉相机和激光雷达拍摄同一场景在不同角度和照度下的深度图像;步骤2、深度图像的预处理利用高斯滤波对深度图像进行去噪,再利用DeepFillv2算法对去噪后的深度图像进行修复,获得恢复后的深度图像,即预处理后的深度图像;步骤3、由预处理后的深度图像计算点云数据根据成像原理计算世界坐标系与图像像素坐标系之间的转换关系,利用计算出的转换关系获得预处理后深度图像在世界坐标系下的点云数据;并对获得的点云数据进行畸变补偿,获得畸变补偿后的点云数据;步骤4、点云配准以场景的公共部分为基准,根据每一帧的平移向量与旋转矩阵将不同角度和照度下的多帧预处理后深度图像所对应的畸变补偿后点云坐标匹配叠加到世界坐标系中,获得配准后的点云空间;
步骤5、配准后点云数据的融合以传感器的初始位置为原点构造体积网格,利用网格将配准后点云空间分割成各个立方体,即将配准后点云空间分割为各个体素;通过为各个体素赋予距离场值来模拟表面;步骤6、表面生成采用MC算法对步骤5所得的结果进行处理,生成三维表面,即得到任务场景地图。5.根据权利要求4所述的一种基于课程强化学习的机器人策略训练系统的训练方法,其特征在于,所述步骤6的具体过程为:将数据场中八个位置相邻的数据分别存放在一个体素的八个顶点处,对于一个边界体素上一条棱的两个端点,选择势值T之后,当其中一个端点大于T而另一个端点小于T时,则这条棱上存在着等值面的一个顶点,遍历该体素中的全部十二条棱之后,得到该体素中十二条棱和等值面的交点,构造该体素中的三角面片,该体素中的所有三角面片把该体素分成了等值面内与等值面外两块区域,连接该体素中的所有三角面片即构成该体素的等值面,合并所有体素的等值面即形成完整的三维表面,将形成的完整三维表面作为任务场景地图。6.根据权利要求5所述的一种基于课程强化学习的机器人策略训练系统的训练方法,其特征在于,所述任务场景智能环境自主生成的具体过程为:步骤1)任务场景分割生成利用步骤5中分割后获得的各个体素,构建点云中各点周围体素的邻接矩阵,根据邻接矩阵对目标边缘加权,完成点云中重叠目标的分离,即将整体点云分割为各个物体3D点云模型;再将分割后的物体3D点云模型与任务场景地图进行数据关联,判断分割出的各个目标类别,并将目标类别加入到模型库中;将非地面点云聚类分割成不同类别的点云簇,即构建出整体三维语义地图;步骤2)任务目标自动化生成所述步骤2)的具体过程为:步骤S1、将三维语义地图投影到水平地面上...

【专利技术属性】
技术研发人员:吴立刚董博王淼王夏爽姚蔚然田昊宇丁季时雨孙科武杨皙睿孙光辉
申请(专利权)人:中国航天科工集团第二研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1