一种基于改进DQN的视频游戏模拟方法技术

技术编号:20243088 阅读:59 留言:0更新日期:2019-01-29 23:33
一种基于改进DQN的视频游戏模拟方法,为了解决DQN算法在视频游戏模拟中游戏得分低、学习策略速度慢的问题。该算法首先对激活函数进行了改进,结合ReLu和Softplus两种激活函数的优点,设计并构造一种分段激活函数。其次设计改进的Gabor滤波器,用其代替卷积神经网络中原有的可训练的滤波器。算法中将视频游戏的一帧帧图像和改进后的Gabor滤波器卷积得到多个不同方向的特征,然后将这些特征进行特征融合,用融合后的特征取代原始视频游戏图像作为卷积神经网络的输入,利用强化学习的Q‑Learning算法训练更新网络权重,得到训练模型,实现视频游戏的模拟。实验研究表明,改进的DQN算法在视频游戏模拟中游戏得分更高,且能更快地学习到策略。

【技术实现步骤摘要】
一种基于改进DQN的视频游戏模拟方法
本专利技术涉及视频游戏模拟方法,涉及人工智能

技术介绍
谷歌公司的人工智能研究团队DeepMind近两年公布了两项令人瞩目的研究成果:基于Atari视频游戏的深度强化学习算法[1]和计算机围棋初弈号[2]。这些工作打破了传统学术界设计类人智能学习算法的桎梏,作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策,可用于解决智能体在复杂高维状态空间中的感知决策问题[3]。2015年,Mnih等人[1]提出了一种深度Q网络(deepQnetwork,DQN)模型,它是将卷积神经网络和Q学习结合,并集成经验回放技术实现的[4]。DQN模拟人类玩家进行游戏的过程,直接将游戏画面作为信息输入,游戏得分作为学习的强化信号[5]。研究人员对训练收敛后的算法进行测试,发现其在49个视频游戏中的得分均超过人类的高级玩家。通过经验回放技术和固定目标Q网络,DQN有效解决了使用神经网络非线性动作值函数逼近器带来的不稳定和发散性问题,极大提升了强化学习的适用性。经验回放增加了本文档来自技高网...

【技术保护点】
1.一种基于改进DQN的视频游戏模拟方法,其特征在于,所述方法的实现过程为:步骤一、DQN算法中激活函数的改进结合ReLu激活函数和Softplus激活函数构造一个非饱和修正线性激活函数用于DQN算法,改进的激活函数记为ReLu‑Softplus;步骤二、Gabor滤波器的改进对传统的Gabor滤波器式(5)引入曲度系数c,并对其中的y'进行耦合,改进后的Gabor滤波器x’和y’坐标为:

【技术特征摘要】
1.一种基于改进DQN的视频游戏模拟方法,其特征在于,所述方法的实现过程为:步骤一、DQN算法中激活函数的改进结合ReLu激活函数和Softplus激活函数构造一个非饱和修正线性激活函数用于DQN算法,改进的激活函数记为ReLu-Softplus;步骤二、Gabor滤波器的改进对传统的Gabor滤波器式(5)引入曲度系数c,并对其中的y'进行耦合,改进后的Gabor滤波器x’和y’坐标为:式中,c为表征图像弯曲程度的曲度系数;改进后的Gabor滤波器x’和y’坐标代入公式(5)得到改进后的Gabor滤波器;传统的Gabor滤波器的复数表达形式如式(5)所示:传统的Gabor滤波器中x’和y’定义为:式中,σ为Gabor函数的尺度参数,表示Gabor函数在x轴和y轴上的标准差;u=1/σ;θ为滤波器提取特征的方向,不一样的θ取值表示提取的是数据不同方向上的特征;x,y表示视频游戏图像的像素点在x轴和y轴上对应坐标;步骤三、实现视频游戏模拟,其过程:1)将连续k帧游戏图像和改进后的Gabor滤波器做卷积,得到不同θ取值下的多个特征图X1,X2,X3,……,Xm;2)将得到的M个特征图X1,X2,X3,……,Xm进行特征融合,得到特征图Xn;3)将特征图Xn和DQN算法中原有的若干个可训练学习的滤波器进行卷积,通过ReLu激活函数映射得到DQN的卷积层C1的特征集Xp;4)将卷积得到的特征集Xp采用均值采样的方式进行抽样,通过ReLu激活函数映射得到卷积层C2的特征集Xq;5)将特征集Xq以全连接的方式输出,通...

【专利技术属性】
技术研发人员:康守强许江涛王庆岩谢金宝梁欣涛柳长源
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1