一种对抗式模仿学习中奖励函数的选择方法技术

技术编号：24855851 阅读：38 留言：0更新日期：2020-07-10 19:08

本发明专利技术提供一种对抗式模仿学习中奖励函数的选择方法，包括如下步骤：构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数；获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中；控制策略网络的输入为仿真环境返回的状态，输出为决策动作；判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新；在计算奖励的阶段，判别网络的输入是策略网络的状态动作对，输出值是经过奖励函数计算得到的奖励值；根据不同奖励函数的性能指标的大小选择当前任务的奖励函数；保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习，进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

全部详细技术资料下载

【技术实现步骤摘要】
一种对抗式模仿学习中奖励函数的选择方法
本专利技术涉及奖励函数的选择
，尤其涉及一种对抗式模仿学习中奖励函数的选择方法。
技术介绍
近年来，随着深度学习在图像识别、语音技术、自然语言处理等领域取得了重大突破，将深度神经网络和强化学习结合的深度强化学习也在围棋、星际争霸等大规模策略优化问题上获得了超越人类的表现。而强化学习的瓶颈之一在于：在面临诸如自动驾驶、机器人等实际控制问题时，根据专家经验设计合理的奖励函数费时费力。而数据驱动的模仿学习为解决该问题提供了一种思路，它无需手动设计奖励函数，仅利用示教数据就可以学习到媲美专家的策略。在模仿学习诸多算法中，行为克隆方法是最简单的，它以监督学习的方式进行模仿。但是该方法容易受到复合误差的影响，而且难以适应专家数据中未出现的情况。逆强化学习算法是另一类模仿学习算法，它首先根据专家数据学习奖励函数，然后在该奖励函数的指导下执行强化学习的过程学习策略。此类方法学习到的奖励函数鲁棒性较好，可以应对专家数据中未出现的情况。但是执行该算法需要交替进行寻找最优奖励函数和进行强化学习训练这两...

【技术保护点】
1.一种对抗式模仿学习中奖励函数的选择方法，其特征在于，包括如下步骤：/nS1：构建参数为θ的策略网络π、参数为w的判别网络D和至少两个奖励函数；/nS2：获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器B

【技术特征摘要】
1.一种对抗式模仿学习中奖励函数的选择方法，其特征在于，包括如下步骤：
S1：构建参数为θ的策略网络π、参数为w的判别网络D和至少两个奖励函数；
S2：获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器BE(st,at)中；
S3：控制所述策略网络的输入为仿真环境Env返回的状态st，输出为决策动作at；所述判别网络利用专家策略下的状态动作对(st,at)E和所述策略网络的状态动作对(st,at)π进行参数的更新；在计算奖励的阶段，所述判别网络的输入是所述策略网络的状态动作对(st,at)π，输出值是经过所述奖励函数计算得到的奖励值；
S4：根据不同所述奖励函数的性能指标的大小选择当前任务的奖励函数；
S5：保存与选择的所述奖励函数对应的所述策略网络的参数。

2.如权利要求1所述的对抗式模仿学习中奖励函数的选择方法，其特征在于，根据所述奖励函数取值区间的不同设计6个奖励函数。

3.如权利要求2所述的对抗式模仿学习中奖励函数的选择方法，其特征在于，所述奖励函数为：
r1(x)＝x＝log(σ(x))-log(1-σ(x))
r2(x)＝ex
r3(x)＝-e-x
r4(x)＝σ(x)
r5(x)＝-log(1-σ(x))
r6(x)＝log(σ(x))
其中，x是所述判别网络的输出，是sigmoid函数。

4.如权利要求3所述的对抗式模仿学习中奖励函数的选择方法，其特征在于，根据不同所述奖励函数性能指标的大小选择当前任务奖励函数的过程包括：
S41：初始化多个所述仿真环境Envi、所述策略网络πi和所述判别网络Di，并同时开启训练进程，其中i＝0,1,...6；
S42：在每个训练进程中，使用当前所述策略网络π与所述仿真环境Env进行交互，将当前时间步的状态动作对存入策略网络缓存器Bπ(st,at)中；
S43：从所述策略网络缓存器Bπ(st,at)中采样得到当前策略下的状态动作轨迹(st,at)π，从所述专家数据缓存器BE(st,at)中采样得到专家状态动作轨迹(st,at)E，并通过损失函数DJS对所述判别网络D的梯度下降以优化参数w：

其中，w代表判别网络参数，αd代表判别网络参数的学习率，DJS代表判别网络损失函数，(s,a)π和(s,a)E分别代表从策略网络缓存器Bπ(st,at)和专家数据缓存器(st,at)E中采样得到的状态动作轨迹。
S44：根据不同所述奖励函数的具体形式，在训练过程中计算每一步的奖励值rt，并存到所述策略网络缓存器Bπ(st,at,rt)中；
S45：根据优势函数计算每一时间步的优势值At，并存到所述策略网络缓存器Bπ(st,at,rt,At)中；
S4...

【专利技术属性】
技术研发人员：李秀，王亚伟，张明，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人