【技术实现步骤摘要】
一种利用失败数据提升性能的模仿学习训练方法
[0001]本专利技术属于机器人
,具体涉及一种利用失败数据提升性能的模仿学习训练方法。
技术介绍
[0002]强化学习在大量模拟任务中取得了令人印象深刻的效果,但其中的关键假设是可以获得恰当的奖励函数,否则可能会导致意外行为。与设计奖励函数相比,获得演示更容易,因此模仿学习引起了人们极大的兴趣。
[0003]模仿学习旨在从演示中学习策略来完成任务。但专家也可能会犯错误,完美的、可以顺利完成任务的演示并不容易得到。现有的模仿学习算法仅使用成功的专家数据进行训练,当专家数据质量不高时,可能会误导模仿学习的过程。并且收集过程中的失败数据没有被使用,造成了数据的浪费。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术提供了一种利用失败数据提升性能的模仿学习训练方法,首先收集专家演示轨迹,然后对部分专家演示轨迹做成功与否的标记,接下来根据已标签数据训练鉴别器,最后进行生成对抗模仿学习以获得目标策略。本专利技术可以获得比专家演示平均成功率更高的控制策 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种利用失败数据提升性能的模仿学习训练方法,其特征在于,包括以下步骤:步骤1:收集专家演示轨迹;根据问题模型设计状态s
t
和动作a
t
;定义s
t
为当前状态,a
t
为当前动作,s
t+1
为下一时刻状态,将(s
t
,a
t
,s
t+1
)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹,进行训练之前需要收集专家演示轨迹;步骤2:对部分专家演示轨迹做成功与否的标记;将步骤1所获得的所有专家演示轨迹归入专家演示区E;根据具体演示轨迹是否成功完成任务,将轨迹中所有点加上标记l:当轨迹成功完成任务时,加入的标记l=1;当轨迹没有成功完成任务时,加入的标记l=0;专家演示区的数据根据是否加入标记分为有标记的专家演示{s
e
,a
e
,l
e
}和没有标记的专家演示{s
e
,a
e
};步骤3:根据已标签数据训练鉴别器;用一个关于参数φ的神经网络构建鉴别器B(s,a),以帮助判断未标记数据是否符合成功标准;使用步骤2中得到的有标记的专家演示{s
e
,a
e
,l
e
},最小化如下损失函数:其中状态
‑
动作对(s
i
,a
i
)从有标记的专家演示{s
e
,a
e
,l
e
}中采样获得,l
i
∈{0,1}为第i个状态
‑
动作对是否属于成功轨迹的标签,n
l
为有标记的专家演示{s
e
,a
e
,l
e
}中的轨迹数量,φ为鉴别器B(s,a)的参数;步骤4:进行生成对抗模仿学习以获得目标策略;所述生成性对抗模仿学习包括鉴别器和生成器;生成器π(a|s)由关于参数θ的神经网络构成,根据输入状态生成对应动作,可得到生成样本{s
技术研发人员:黄攀峰,武曦,马志强,刘正雄,常海涛,刘星,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。