【技术实现步骤摘要】
基于分布式强化学习的无人机智能仿真训练方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种基于分布式强化学习的无人机智能仿真训练方法及装置。
技术介绍
[0002]随着无人机在各领域的应用场景不断增多,提高无人机的自主化、智能化水平的迫切需求日益明显。为提升无人机自主飞行的智能水平,使用计算机仿真技术为其搭建智能博弈仿真平台是一个重要途径。智能博弈仿真指在某个对抗博弈仿真系统中,智能算法通过运用规则脚本、行为决策树、遗传算法、强化学习等手段,控制仿真系统中的仿真实体与环境进行交互,并在仿真博弈对抗活动中对其决策行为的智能化程度进行测试。
[0003]目前,业界采用基于分布式强化学习的训练框架对智能博弈仿真系统进行训练,其构成要素主要包括行动者、学习者与样本重放缓存,行动者负责代理与环境进行交互并收集经验样本数据,学习者则负责对样本数据进行学习并更新强化学习模型。
[0004]然而,现有的分布式强化学习训练框架采用的是基于同步梯度平均的参数更新策略。在这种策略下,需要等待所有学习者都完成神经网络模 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式强化学习的无人机智能仿真训练方法,其特征在于,包括:构建基于强化学习的无人机智能仿真训练框架;所述无人机智能仿真训练框架包括:N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点,N≥2,M≥2;在所述无人机智能仿真训练框架下,无人机智能体基于以下步骤进行仿真训练,包括:步骤1,普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据,以及,向参数服务器学习者节点发送最新模型参数请求,以获取所述强化学习神经网络模型的最新模型参数;步骤2,普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数,确定所述强化学习神经网络模型当前梯度;步骤3,普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点,以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后,根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数,对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿,得到补偿后的强化学习神经网络模型梯度,并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新;步骤4,行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新模型参数,以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互,积累无人机仿真经验样本数据,并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储;步骤5,重复上述步骤1至步骤4,直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时,无人机智能仿真训练结束。2.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法,其特征在于,所述无人机仿真经验样本数据包括:无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。3.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法,其特征在于,普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数,确定所述强化学习神经网络模型当前梯度,包括:根据下面第一模型,确定各普通学习者的所述强化学习神经网络模型当前梯度;其中,所述第一模型为:其中,为第i个普通学习者所述强化学习神经网络模型当前梯度,f为强化学习神经网络函数,d为无人机仿真经验样本数据,w
t
为第i个普通学习者从参数服务器获取的强化学习神经网络模型的最新模型参数。4.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法,其特征在于,根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数,对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿,得到补偿后的强化学习神经网络模型梯度,包括:根据下面第二模型,对当前接收的普通学习者节点发送的强化学习神经网络模型梯度
进行滞后补偿,得到补偿后的强化学习神经网络模型梯度;其中,所述第二模型为:其中,为补偿后的强化学习神经网络模型梯度,为当前接收的强化学习神经网络模型梯度,w
t
为所述强化学习神经网络模型的最新模型参数,为普通学习者i最近...
【专利技术属性】
技术研发人员:徐新海,李翔,张拥军,李渊,刘逊韵,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。