【技术实现步骤摘要】
一种基于二阶反向传播优先级的游戏策略获得方法
本专利技术属于智能化决策获取
,具体涉及一种基于二阶反向传播优先级的游戏策略获得方法。
技术介绍
随着计算机图形技术、网络技术和人机交互技术的发展,视频游戏的研究也进入到了一个全新的阶段。早期视频游戏的输入画面粗糙,游戏难度单一,不能给予游戏玩家较好的游戏体验。为了创造更加真实的游戏虚拟环境,增加游戏的可玩性和挑战性,以实现玩家与游戏智能体之间更加真实的交互,视频游戏的研究变得至关重要。近年来,深度强化学习(DeepReinforcementLearning,DRL)已成为人工智能领域的研究热点,如何引导智能体通过自主学习,从而获得能够解决实际问题的策略系统始终是一个极具挑战性的问题。不同于需要标记的监督学习算法,强化学习(ReinforcementLearning,RL)本身并没有直接的监督信号来训练智能体的决策行为,因此,强化学习天生适用于解决上述问题。然而,由于传统强化学习算法缺乏合适的手段对高维的环境状态、动作以及智能体策略进行编码,长期以来仅能在较小问题空 ...
【技术保护点】
1.一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,该方法包括以下步骤:/n步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级
【技术特征摘要】
1.一种基于二阶反向传播优先级的游戏策略获得方法,其特征在于,该方法包括以下步骤:
步骤一、初始化:当前值网络Q与目标值网络Q′的权重分别为θ与θ′,经验回放池E通过智能体Agent与环境交互存储样本序列,二级优先级临时经验回放池为空;并构建用于存储单个样本序列的经验回放池h;
步骤二、将当前状态Sm输入当前值网络Q,m=1,2,…,t;
利用探索利用策略选择Agent执行的动作Am,根据当前状态Sm和动作Am获得即时奖赏Rm和状态Sm+1;将样本数据<Sm;Am;Sm+1;Rm>存储到经验回放池h中,并赋予当前经验回放池中最大的优先级为代表第m个样本数据的优先级;
步骤三、判断状态St是否达到中止状态,若状态St达到中止状态,将经验回放池h中样本数据组成的样本序列l1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到经验回放池E中,并清空经验回放池h,执行步骤十二;
步骤四、若状态St未达到中止状态,则判断是否满足t%K=0,其中:t%K=0表示t对K取余等于0,K为训练频率;
若不满足t%K=0,则执行步骤十和步骤十一;
若满足t%K=0,则计算出经验回放池E中包含的样本序列的数量M,并执行步骤五至步骤十一;
步骤五、分别计算出经验回放池E中每个样本序列的累计奖赏值,根据每个样本序列的累计奖赏值计算出每个样本序列的优先级;
步骤六、分别根据步骤五计算出的每个样本序列的优先级来计算每个样本序列被采样的概率;
步骤七、根据步骤六计算出的每个样本序列被采样的概率,对经验回放池E中的样本序列进行采样,将采样出来的样本序列放入临时经验回放池中,得到临时经验回放池中含有的样本数据的个数
步骤八、计算步骤七临时经验回放池中每个样本数据的采样概率,根据每个样本数据的采样概率,从临时经验回放池的个样本数据中抽取出k个样本数据;
再计算每个抽取出的样本数据的采样重要性系数ωe以及TD-errorδe,根据TD-errorδe计算出每个抽取出的样本数据的优先级;
根据每个抽取出的样本数据在经验回放池中的样本序列中的位置,进行反向更新优先级;
根据采样重要性系数ωe和TD-errorδe计算每个抽取出的样本数据的累计梯度;
步骤九、根据步骤八计算出的累计梯度更新当前值网络Q的权重θ;
步骤十、当t%L=0时,更新目标值网络Q′的权重为:当前值网络Q的当前权重;其中:L为目标值网络Q′的权重更新频率;
步...
【专利技术属性】
技术研发人员:王红滨,原明旗,何鸣,张耘,王念滨,周连科,张毅,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。