一种基于改进DQN的视频游戏模拟方法技术

技术编号:20243088 阅读:41 留言:0更新日期:2019-01-29 23:33
一种基于改进DQN的视频游戏模拟方法,为了解决DQN算法在视频游戏模拟中游戏得分低、学习策略速度慢的问题。该算法首先对激活函数进行了改进,结合ReLu和Softplus两种激活函数的优点,设计并构造一种分段激活函数。其次设计改进的Gabor滤波器,用其代替卷积神经网络中原有的可训练的滤波器。算法中将视频游戏的一帧帧图像和改进后的Gabor滤波器卷积得到多个不同方向的特征,然后将这些特征进行特征融合,用融合后的特征取代原始视频游戏图像作为卷积神经网络的输入,利用强化学习的Q‑Learning算法训练更新网络权重,得到训练模型,实现视频游戏的模拟。实验研究表明,改进的DQN算法在视频游戏模拟中游戏得分更高,且能更快地学习到策略。

【技术实现步骤摘要】
一种基于改进DQN的视频游戏模拟方法
本专利技术涉及视频游戏模拟方法,涉及人工智能

技术介绍
谷歌公司的人工智能研究团队DeepMind近两年公布了两项令人瞩目的研究成果:基于Atari视频游戏的深度强化学习算法[1]和计算机围棋初弈号[2]。这些工作打破了传统学术界设计类人智能学习算法的桎梏,作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策,可用于解决智能体在复杂高维状态空间中的感知决策问题[3]。2015年,Mnih等人[1]提出了一种深度Q网络(deepQnetwork,DQN)模型,它是将卷积神经网络和Q学习结合,并集成经验回放技术实现的[4]。DQN模拟人类玩家进行游戏的过程,直接将游戏画面作为信息输入,游戏得分作为学习的强化信号[5]。研究人员对训练收敛后的算法进行测试,发现其在49个视频游戏中的得分均超过人类的高级玩家。通过经验回放技术和固定目标Q网络,DQN有效解决了使用神经网络非线性动作值函数逼近器带来的不稳定和发散性问题,极大提升了强化学习的适用性。经验回放增加了历史数据的利用率,同时随机采样打破了数据间的相关性,与目标Q网络的结合进一步稳定了动作值函数的训练过程[6]。但DQN使用的经验回放技术没有考虑历史数据的重要程度,而是同等频率的回放。文献[7]提出一种带优先级经验回放的DQN,对经验进行优先次序的处理,增加重要历史数据的回放频率来提高学习效果,同时也加快了学习进程。DQN并不擅长解决战略性深度强化学习任务,当存在延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,DQN的表现就会急剧下降。文献[8]提出一种基于视觉注意力机制的深度循环Q网络模型,使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息,通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,提升了模型在一些战略性任务上的性能表现和稳定性。DQN的另一个不足是训练时间长,agent学习策略速度慢,为此文献[9]针对训练DQN耗时大的问题,开发出一种大型的并发式架构(Gorila),从而缩短网络的训练时间;文献[10]提出一种约束优化算法来保证策略最优和奖赏信号快速传播,该算法极大提高了agent学习到最优策略的速度。DQN还有一个不足是游戏得分低,为此文献[11]提出将蒙特卡罗树搜索与DQN结合,实现了Atari游戏的实时处理,游戏得分也普遍高于原始DQN;作为DQN的一种变体,分类DQN算法从分布式的角度分析深度强化学习[12],它将奖赏看作一个近似分布,并且使用贝尔曼等式学习这个近似分布,在Atari视频游戏上的平均表现要优于原始DQN。虽然目前DQN算法在大部分Atari视频游戏上达到了人类玩家的控制效果,在接近于真实场景的各类任务上表现出了强大的适用性,但是DQN算法仍然存在游戏得分低,学习策略速度慢的问题。
技术实现思路
本专利技术为了解决利用DQN进行视频游戏模拟存在学习策略速度慢、游戏得分低等问题,进而提出一种基于改进DQN的视频游戏模拟方法。本专利技术为解决上述技术问题采取的技术方案是:一种基于改进DQN的视频游戏模拟方法,所述方法的实现过程为:步骤一、DQN算法中激活函数的改进结合ReLu激活函数和Softplus激活函数构造一个非饱和修正线性激活函数用于DQN算法,改进的激活函数记为ReLu-Softplus;步骤二、Gabor滤波器的改进对传统的Gabor滤波器式(5)引入曲度系数c,并对其中的y'进行耦合,改进后的Gabor滤波器x’和y’坐标为:式中,c为表征图像弯曲程度的曲度系数;改进后的Gabor滤波器x’和y’坐标代入公式(5)得到改进后的Gabor滤波器;传统的Gabor滤波器的复数表达形式如式(5)所示:传统的Gabor滤波器中x’和y’定义为:式中,σ为Gabor函数的尺度参数,表示Gabor函数在x轴和y轴上的标准差;u=1/σ;θ为滤波器提取特征的方向,不一样的θ取值表示提取的是数据不同方向上的特征;x,y表示视频游戏图像的像素点在x轴和y轴上对应坐标;步骤三、实现视频游戏模拟,其过程:1)将连续k帧游戏图像和改进后的Gabor滤波器做卷积,得到不同θ取值下的多个特征图X1,X2,X3,……,Xm;2)将得到的M个特征图X1,X2,X3,……,Xm进行特征融合,得到特征图Xn;3)将特征图Xn和DQN算法中原有的若干个可训练学习的滤波器进行卷积,通过ReLu激活函数映射得到DQN的卷积层C1的特征集Xp;4)将卷积得到的特征集Xp采用均值采样的方式进行抽样,通过ReLu激活函数映射得到卷积层C2的特征集Xq;5)将特征集Xq以全连接的方式输出,通过改进的ReLu-Softplus激活函数映射得到样本的实际输出Q值,然后根据当前模型的最优方案选择一个动作a;6)将经验数据(s,a,r,s’)放入历史经验队列并随后从历史经验队列中采样出mini-batch大小的经验样本,s表示视频游戏的当前状态,a表示在当前状态下选择的动作,r表示在当前状态下选择一个动作得到的奖励,s’表示在当前状态s下选择一个动作a后转移到的下一个状态;7)将采样出的经验样本转化为DQN训练的元组,利用最小平方误差代价函数计算实际Q值和目标Q值之间的差异,通过反向传播算法自顶向下传递残差,利用权值更新公式更新权值得到训练模型,实现视频游戏模拟。在步一骤中,在数据小于等于0时使用Softplus激活函数;在数据大于0时使用ReLu激活函数,并将其函数图像向上平移ln2个单位大小,改进的激活函数记为ReLu-Softplus,如式(4):式中,x为用于表示视频游戏图像的矩阵,激活函数f(x)表示对视频游戏图像进行非线性映射。在步二骤中,曲度系数c的取值为0至1之间。在步骤三中,选择四个方向梯度,分别为0°、45°、90°和135°。特征融合是对M个特征图X1,X2,X3,……,Xm取均值。本专利技术的有益效果是:本专利技术对DQN算法进行改进,设计一个新的激活函数,并用一个改进的Gabor滤波器代替DQN网络中初始的可学习的滤波器,利用强化学习的Q-Learning算法来训练更新网络权重,得到训练模型,实现视频游戏模拟。本专利技术首先对激活函数进行了改进,结合ReLu和Softplus两种激活函数的优点,设计并构造一种分段激活函数。其次设计改进的Gabor滤波器,用其代替卷积神经网络中原有的可训练的滤波器。算法中将视频游戏的一帧帧图像和改进后的Gabor滤波器卷积得到多个不同方向的特征,然后将这些特征进行特征融合,用融合后的特征取代原始视频游戏图像作为卷积神经网络的输入,利用强化学习的Q-Learning算法训练更新网络权重,得到训练模型,实现视频游戏的模拟。实验研究表明,改进的DQN算法在视频游戏模拟中游戏得分更高,且能更快地学习到策略。附图说明图1是深度Q网络(DQN)的结构图;图2是改进的激活函数;图3为基于改进DQN的视频游戏模拟方法的流程框图;图4是为了比较改进前后Gabor滤波器特征提取能力选择的圆形和椭圆(圆形和椭圆作为Gabor滤波器的输入,左边为圆形,右边为椭圆);图5本文档来自技高网
...

【技术保护点】
1.一种基于改进DQN的视频游戏模拟方法,其特征在于,所述方法的实现过程为:步骤一、DQN算法中激活函数的改进结合ReLu激活函数和Softplus激活函数构造一个非饱和修正线性激活函数用于DQN算法,改进的激活函数记为ReLu‑Softplus;步骤二、Gabor滤波器的改进对传统的Gabor滤波器式(5)引入曲度系数c,并对其中的y'进行耦合,改进后的Gabor滤波器x’和y’坐标为:

【技术特征摘要】
1.一种基于改进DQN的视频游戏模拟方法,其特征在于,所述方法的实现过程为:步骤一、DQN算法中激活函数的改进结合ReLu激活函数和Softplus激活函数构造一个非饱和修正线性激活函数用于DQN算法,改进的激活函数记为ReLu-Softplus;步骤二、Gabor滤波器的改进对传统的Gabor滤波器式(5)引入曲度系数c,并对其中的y'进行耦合,改进后的Gabor滤波器x’和y’坐标为:式中,c为表征图像弯曲程度的曲度系数;改进后的Gabor滤波器x’和y’坐标代入公式(5)得到改进后的Gabor滤波器;传统的Gabor滤波器的复数表达形式如式(5)所示:传统的Gabor滤波器中x’和y’定义为:式中,σ为Gabor函数的尺度参数,表示Gabor函数在x轴和y轴上的标准差;u=1/σ;θ为滤波器提取特征的方向,不一样的θ取值表示提取的是数据不同方向上的特征;x,y表示视频游戏图像的像素点在x轴和y轴上对应坐标;步骤三、实现视频游戏模拟,其过程:1)将连续k帧游戏图像和改进后的Gabor滤波器做卷积,得到不同θ取值下的多个特征图X1,X2,X3,……,Xm;2)将得到的M个特征图X1,X2,X3,……,Xm进行特征融合,得到特征图Xn;3)将特征图Xn和DQN算法中原有的若干个可训练学习的滤波器进行卷积,通过ReLu激活函数映射得到DQN的卷积层C1的特征集Xp;4)将卷积得到的特征集Xp采用均值采样的方式进行抽样,通过ReLu激活函数映射得到卷积层C2的特征集Xq;5)将特征集Xq以全连接的方式输出,通...

【专利技术属性】
技术研发人员:康守强许江涛王庆岩谢金宝梁欣涛柳长源
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1