【技术实现步骤摘要】
一种基于混合BNN网络和经验数据环境的智能推演方法
[0001]本专利技术涉及深度强化学习
,特别是涉及一种基于混合BNN网络和经验数据环境的智能推演方法。
技术介绍
[0002]目前,利用深度强化学习算法模型探究作战最优策略成为兵棋推演智能化的一个重要研究热点,深度学习算法(DL)分析处理战场感知数据,有助于指挥员迅速辨别战场态势;强化学习算法(RL)有助于进行决策辅助,提高指挥员谋略水平,对战争结果产生重要的影响。智能推演可以从两方面增强战争预判的有效性,首先,它更准确、更快地计算和预测战争的结果。推理系统结合RL算法在超计算能力的支持下,比人脑的计算和预测结果更加准确。计算速度也会提高。可以缩短战场决策周期,牢牢把握战场优势。其次,作战仿真系统可以更有效地测试和优化作战计划,帮助人们发现问题和弱点。特别是在战斗游戏推演系统中引入深度学习算法后,智能系统的行为将发生深刻的变化。
[0003]现有基于DRL算法的决策模型,其训练时间过长,算力开销过大,无法满足作战任务的实时性需求。
[0004]DRL ...
【技术保护点】
【技术特征摘要】
1.一种基于混合BNN网络和经验数据环境的智能推演方法,其特征在于,包括以下步骤:1)智能体通过二进制策略网络与仿真平台交互,获得一个训练步后智能体所处的环境状态以及此次交互获得的回报,组成四元组形式的经验数据;经过多次交互后获得多组经验数据;2)将第一组经验数据随机存入一个经验回放缓冲池中,将后续每组所述经验数据按照所述智能体所处环境状态的差异大小,存放入不同或相同的经验回放缓冲池,并更新存入经验数据之后每个经验回放缓冲池的环境状态均值;3)从经验回放缓冲池中,按照一定的比例取出经验数据作为训练数据;4)将训练数据输入到get
‑
critic评价网络和get
‑
actor策略网络,并更新这两个网络的参数;5)更新经验数据,开始新的一步;6)不断重复步骤1)
‑
步骤5)进行迭代获得最终模型,在仿真平台环境中进行的测试,获得智能推演结果。2.根据权利要求1所述的一种基于混合BNN网络和经验数据环境的智能推演方法,其特征在于,步骤1)中,所述二进制策略网络采用二进制卷积层和全精度卷积层混合的BNN网络。3.根据权利要求1所述的一种基于混合BNN网络和经验数据环境的智能推演方法,其特征在于,步骤1)中,所述经验数据包括s,a,s_,r,其中s表示所述智能体在交互前的状态,状态包括所述智能体所处的位置,以及是否存活;a表示所述智能体在此次交互中采取的动作;s_表示所述智能体与所述仿真平台交互之后生成的新状态;r表示此次交互所述智能体获得...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。