当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法技术

技术编号:27014769 阅读:43 留言:0更新日期:2021-01-12 10:57
本发明专利技术公开了一种基于Deep Q‑Network改进的俄罗斯方块智能Agent学习方法,包括以下步骤:1)获取当前游戏状态下方块的统计特征,根据游戏画面采集游戏画面每帧的统计特征序列;2)通过深度神经网络来进行俄罗斯方块智能Agent Q值的估计,所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数;3)在Q值估计中,使用均方误差定义目标函数;4)计算参数W关于损失函数的梯度:5)计算出上面的梯度后,使用SGD算法来更新参数,从而得到最优的Q值,即获得每次交互选取使得Q值最大的动作a。本发明专利技术方法利用预定义的方块统计特征改进了DQN网络训练Agent玩俄罗斯方块的性能。

【技术实现步骤摘要】
一种基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法
本专利技术涉及人工智能技术,尤其涉及一种基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法。
技术介绍
人工智能(ArtificialIntelligence,AI)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它旨在了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究主要是机器学习、深度学习、强化学习、包括自然语言处理、计算机视觉、感知、认知与决策等。强化学习(ReinforcementLearning,RL)任务通常使用马尔可夫决策过程(MarkovDecisionProcess,MDP)来描述,具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素本文档来自技高网...

【技术保护点】
1.一种基于Deep Q-Network改进的俄罗斯方块智能Agent学习方法,其特征在于,包括以下步骤:/n1)获取当前游戏状态下方块的统计特征,根据游戏画面采集游戏画面每帧的统计特征序列,其中,统计特征序列包括:空洞数、板块高度、消行数、列井深和、颠簸、列高和;/n2)通过深度神经网络来进行俄罗斯方块智能Agent Q值的估计,所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数,/n具体如下:/n所述深度神经网络的结构为:用于输入方块统计特征序列的Dense全连接层与DQN网络的拼接;/nQ值的估计表示为:/nQ(s,a,w)≈Q

【技术特征摘要】
1.一种基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法,其特征在于,包括以下步骤:
1)获取当前游戏状态下方块的统计特征,根据游戏画面采集游戏画面每帧的统计特征序列,其中,统计特征序列包括:空洞数、板块高度、消行数、列井深和、颠簸、列高和;
2)通过深度神经网络来进行俄罗斯方块智能AgentQ值的估计,所述Q值为俄罗斯方块agent在采取某个action后的表现对应的奖励分数,
具体如下:
所述深度神经网络的结构为:用于输入方块统计特征序列的Dense全连接层与DQN网络的拼接;
Q值的估计表示为:
Q(s,a,w)≈Qπ(s,a)
其中,s代表当前的环境,由游戏画面最近4帧(4*10*20)的灰度图输入到2个卷积层然后展平成一维向量,和游戏画面最近4帧的方块统计特征序列经过Dense全连接层编码后做concat拼接而来;最后接一个Dense层输出动作a与s交互时对应的Q值;a代表从潜在action空间中选取的当前动作,潜在action空间包括旋转、左移、右移和下降;
w为神经网络的参数;
3)在Q值估计中,使用均方误差来定义目标函数,也就是网络的损失函数;
4)计算参数w关于损失函数的梯度:
5)根据计算出的梯度,使用SGD算法来更新参数w,从而得到最优的Q值,即获得每次交互选取使得Q值最大的动作a。


2.根据权利要求1所述的基于DeepQ-Network改进的俄罗斯方块智能Agent学习方法,其特征在于,所述步骤1)中统计特征具体如下:
空洞数:堆叠完成...

【专利技术属性】
技术研发人员:曹宽唐存琛毕翔
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1