【技术实现步骤摘要】
用状态相似性进行经验回放采样的无人平台决策学习方法
本专利技术涉及无人控制领域,尤其涉及一种用状态相似性进行经验回放采样的无人平台自主决策学习方法。
技术介绍
近些年,利用深度强化学习在无人平台控制领域取得了突破性成果。无人平台通过一边与环境交互收集轨迹数据,一边用收集到的轨迹数据更新无人平台的决策神经网络模型。为了提高数据利用率和消除训练数据的相关性,强化学习会设置经验回放池,将每次无人平台与环境交互收集的样本数据放入经验回放池中,训练时从中随机采样得到训练样本数据,用于训练无人平台的决策神经网络。但是这种方法会带来一个问题:用于训练的样本数据有很多是从无人平台的历史策略采样得到的,而随着决策神经网络模型的更新,当前策略与历史策略差异很大,对应二者采样的样本数据分布也会差异很大,用与当前策略不相符的过于老旧的样本数据来训练当前策略会导致无人平台训练不稳定,甚至导致无法学到有效的策略。关于哪些数据应当存放在经验回放池以及如何使用回放池中数据这两个问题一直是利用强化学习训练无人平台中的热点问题。在基于优先级采样的DQN ...
【技术保护点】
1.一种用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,包括以下步骤:/n步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据放入经验回放池中;/n步骤2,在更新所述无人平台的决策神经网络模型时,从所述经验回放池中采样得到一批历史样本数据;/n步骤3,用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器;/n步骤4,计算所述步骤2中历史样本数据与所述无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,所述状态相似度利用所述步骤3中训练得到的图像编码器计算;/n步骤5,利用所述步骤4计算得出的所述状态相似度和动作相似度,确定历史样本数据与所 ...
【技术特征摘要】
1.一种用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,包括以下步骤:
步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据放入经验回放池中;
步骤2,在更新所述无人平台的决策神经网络模型时,从所述经验回放池中采样得到一批历史样本数据;
步骤3,用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器;
步骤4,计算所述步骤2中历史样本数据与所述无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,所述状态相似度利用所述步骤3中训练得到的图像编码器计算;
步骤5,利用所述步骤4计算得出的所述状态相似度和动作相似度,确定历史样本数据与所述无人平台的当前策略的一致性程度,根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。
2.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤2在更新无人平台的决策神经网络模型开始前,还包括:
判断所述经验回放池中数据的数量是否大于预设值,若是,则进行更新无人平台的决策神经网络模型;
若否,则继续执行所述步骤1,直至所述经验回放池中数据的数量大于预设值。
3.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤5后,还包括:
步骤6,判断当前对决策神经网络模型更新的次数是否大于预设的总次数,若达到,则停止训练,若未达到,则返回所述步骤1。
4.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无...
【专利技术属性】
技术研发人员:庄连生,张淦霖,李厚强,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。