【技术实现步骤摘要】
一种基于虚拟场景训练的机器人模仿学习方法
本专利技术属于模仿学习与人工智能
,特别涉及一种基于虚拟场景训练的机器人模仿学习方法。
技术介绍
在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策任务(sequentialdecision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。与此同时,强化学习需要一个合适的reward函数去求解最优行动策略,但很多情况下不容易设计一个足够全面和优秀的reward函数,特别是在一些复杂的应用场景中,例如自动驾驶中撞人、撞车和闯红绿灯三者的reward值很难有一个合理的比例和设定,当面对的周围环境更加复杂就更难去定量。而模仿学习(ImitationLearning)的方法经过多年的发展,已经能够很好地解决多步决策问题,在机器人、NLP等领域也有很多的应用。模仿学习希望机器能够通过观察并模仿专家的行为策略进行学习,不需要提前设计好任务的re ...
【技术保护点】
1.一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,包括以下步骤:/nS1、根据具体任务设计机器人模型和虚拟交互环境;/nS2、采集和整理专家数据集;/nS3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;/nS4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;/nS5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。/n
【技术特征摘要】
1.一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,包括以下步骤:
S1、根据具体任务设计机器人模型和虚拟交互环境;
S2、采集和整理专家数据集;
S3、根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;
S4、从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;
S5、对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。
2.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1包括以下步骤:
S1.1、根据具体任务设计机器人模型和虚拟环境,使用unity3D引擎设计仿真环境,所述仿真环境尽可能接近真实环境,其目的是提供一个可视化的图形界面,帮助更快的训练模型和后期迁移,减少直接在真实环境训练可能遇到的危险,降低训练成本;
S1.2、结合域随机化的方法,使仿真环境中可能影响输出的环境变量随机化,用于在训练时提供足够的模拟场景样本空间可变性,以便在测试时该模型能够推广到真实环境的场景中;
S1.3、设计仿真环境的输入输出控制操作接口,包括和网络模型输出交互的网络接口和人机操作接口,便于对由策略生成器和判别器组成的网络模型进行训练和调试。
3.根据权利要求2所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S1.2中,根据不同任务,所述仿真环境中可能影响输出的环境变量包括机器人当前状态,操作对象的数量和形状以及纹理特征,机器人放置的位置,灯光,障碍物位置和高度,相机位置方向和视野。
4.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2包括以下步骤:
S2.1、采集和整理专家数据集,通过人工示教或者训练好的机器从真实环境中采集大量的状态-动作对和必要的参数,作为模仿学习的样本,构建专家数据集;构建专家数据集的数学描述如下:
τE~πE,πE∈Π;
Π表示从状态空间集合中S随机给定一个状态s后从动作空间集合中A选择一个动作a的所有可能的平稳随机策略集合,πE表示专家即人或者训练好的机器,τE表示从πE中采样出来的状态-动作数据样本集合;
S2.2、按照S2.1的步骤得到专家数据集后对数据进行筛选和预处理,剔除掉离群数据,对剔除掉离群数据后剩余的数据进行扩增,获得更多具有丰富表征的样本。
5.根据权利要求1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S2.2中,对剔除掉离群数据后剩余的数据进行扩增,包括加噪声,线性坐标变换,二次采样,轻微扰动。
6.根据权利要求书1所述的一种基于虚拟场景训练的机器人模仿学习方法,其特征在于,步骤S3包括以下步骤:
S3.1、根据具体任务确定状态取值空间S和动作取值空间A,结合具体的任务,确定状态空间S和动作空间A的取值范围;
S3.2根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络,策略生成器的输入维度为和状态s的维度一样,使用简单的多层全连接分类网络作为策略生成器,输出维度等于|A|即预测当前状态下做出每个动作的概率,所述简单的多层全连接分类网络中的网络层不超过5层,结合具体任务根据输入状态的维度和输出动作的维度确定输入输出大小;判别器的输入维度是状态s和动作a的维度之和,s,a来自专家数据集和策略生成器采样的数据,中间层也用简单的多层全连接网络实现,输出层使用Sigmoid函数g(·)作为激...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。