【技术实现步骤摘要】
基于状态轨迹的对抗式模仿学习方法及装置
本专利技术涉及机器学习
,特别涉及一种基于状态轨迹的对抗式模仿学习方法及装置。
技术介绍
最近几年,深度神经网络促成了在图像识别、语音技术、自然语言处理等领域的一系列重大突破。与此同时,将深度网络与强化学习结合而成的深度强化学习也在围棋、星际争霸、Dota2等大规模策略优化问题上取得了超越人类的表现。奖励函数设计的环节在强化学习中具有十分关键的地位,往往包含了专家对特定任务的先验知识。因此在面对诸如机器人控制、自动驾驶等实际任务时,一般难以根据专家知识设计合理的奖励函数。而数据驱动型的模仿学习算法为克服该类缺陷提供了一种思路,它不需要手动设计奖励函数,仅仅利用专家轨迹数据就可以学习到媲美专家的策略。模仿学习算法主要有三类:行为克隆、逆强化学习和基于生成对抗网络的模仿学习算法。其中,行为克隆方法将模仿学习看作是监督学习,是最简单且容易实现的方法。这种方法容易受到复合误差的影响,而且难以处理专家数据中未出现的情况。相较而言,逆强化学习的思路更加贴近强化学习的传统思路:它先根据专家数据 ...
【技术保护点】
1.一种基于状态轨迹的对抗式模仿学习方法,其特征在于,包括以下步骤:/nS1,获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;/nS2,构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;/nS3,基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新;/nS4,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。/n
【技术特征摘要】 【专利技术属性】
1.一种基于状态轨迹的对抗式模仿学习方法,其特征在于,包括以下步骤:
S1,获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;
S2,构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;
S3,基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新;
S4,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
2.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述S1进一步包括:
根据应用场景设计仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
3.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述S3进一步包括:
S31,初始化所述仿真环境env、所述第一主值网络Q1、所述第二主值网络Q2、所述主策略网络π、所述第一副值网络Q′1、所述第二副值网络Q'2、所述副策略网络π'和所述判别网络D;
S32,在当前状态st依据策略选取动作at,并转移到下一状态st+1,将前后时刻状态对(st,st+1)π输入所述判别网络中,所述判别网络输出当前时刻的奖励值rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进生成数据缓存器Bπ;
S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新;
S34,每隔第一预设时间对所述判别网络进行更新,在所述专家数据缓存器BE和所述生成数据缓存器Bπ中分别采样得到专家状态轨迹和生成状态轨迹,并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数;
S35,每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新,并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新。
4.根据权利要求3所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述当前时刻的奖励值为:
rt=-log(1-D((st,st+1)π))
其中,D((st,st+1)π))为判别网络的输出,(st,st+1)π为生成状态轨迹。
5.根据权利要求3所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述S33进一步包括:
S331,依据副策略网络π'和随机扰动选择下一时刻的动作:
技术研发人员:杨君,王亚伟,张明,芦维宁,李志恒,梁斌,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。