基于内在奖励的视频游戏决策方法技术

技术编号:24459002 阅读:83 留言:0更新日期:2020-06-10 16:25
本发明专利技术提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本发明专利技术的有益效果是:较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。

Video game decision method based on intrinsic reward

【技术实现步骤摘要】
基于内在奖励的视频游戏决策方法
本专利技术涉及视频游戏决策方法,尤其涉及一种基于内在奖励的视频游戏决策方法。
技术介绍
视频游戏出现于20世纪70年代初,自视频游戏诞生起,通过人工智能技术实现视频游戏中的智能体的自动决策这项技术,一直是工业界和学术界研究的热点,有着巨大的商业价值。近年来,深度强化学习方法的快速发展为实现这项技术提供了有效途径。通常来讲,游戏决策技术的好坏完全由游戏中得分多少或者能否赢得比赛而决定,视频游戏也是如此。深度强化学习算法应用于复杂博弈场景的优势在于其端到端的特性,通过深度强化学习算法学习智能体行动策略从而直接完成从输入游戏状态到输出可行动作的映射,这为解决各类博弈任务提供了一套通用的算法框架,而Actor-Critic算法是其中较具代表性的算法。在以Actor-Critic算法为基本框架的深度强化学习算法中,为了训练出各类机器博弈智能体,通常的做法是首先通过设计卷积网络对博弈状态进行特征提取,然后利用Actor网络进行智能体行动策略学习,利用Critic网络进行策略评估与改善,不断迭代训练直至收敛。然而在少数几个Atari视频游戏场景中,以该算法为基本框架的智能体很难学习到高效获取环境奖励的策略,这类场景所具备的一个相似点是智能体所处的环境比较复杂,很难直接获得奖励反馈,智能体往往需要经过一系列的行动决策或者参考较多的历史信息才能做出获得正向奖励值的动作。原因在于Actor-Critic算法实质上是综合考虑了值迭代方法与策略梯度方法,其中策略梯度方法需要根据智能体交互过程中的轨迹进行采样和策略更新,如果缺乏充足的采样轨迹或者采样轨迹的质量不够好,就会影响策略梯度的优化过程从而导致智能体无法学习到正确且高效的策略。在三维视频游戏Vizdoom中,智能体在游戏场景中只能接触到视线范围内的小部分环境,同时场景中具有大量迷宫和陷阱等设计机制影响智能体的探索和奖励获取,由于奖励反馈的稀疏性,采样轨迹中高收益值动作所占比例较小,策略梯度算法的训练过程缺乏正向奖励采样轨迹,整体训练过程方差较高。而Actor-Critic算法引入值迭代方法中的价值模型后以价值网络对轨迹值进行估计,从理论上能缓解策略梯度方法方差较高的缺点,但是在Vizdoom场景实际的训练过程中使用该算法在训练时仍然会产生智能体行动策略更新幅度震荡过高、不够稳定的问题。在部分环境奖励反馈稀疏的Vizdoom场景中,缺乏奖励信号会使算法无法进行策略更新或者在训练中产生大幅度震荡导致无法收敛。因此,对于深度强化学习算法在三维视频游戏Vizdoom中的应用,存在三维场景中较为常见的缺乏环境反馈奖励值的问题。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于内在奖励的视频游戏决策方法。本专利技术提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本专利技术的有益效果是:通过上述方案,较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。附图说明图1是本专利技术一种基于内在奖励的视频游戏决策方法的整体流程图。图2是本专利技术一种基于内在奖励的视频游戏决策方法的Vizdoom模拟环境图。图3是本专利技术一种视频游戏决策方法的深度强化学习解决视频游戏神经网络结构图。图4是本专利技术一种基于内在奖励的视频游戏决策方法的内在奖励机制强化学习模型结构图。图5是本专利技术一种基于内在奖励的视频游戏决策方法的内在奖励生成模块结构图。图6是本专利技术一种基于内在奖励的视频游戏决策方法的目标映射网络与预测网络的网络结构图。图7是本专利技术一种基于内在奖励的视频游戏决策方法的视频游戏的内在奖励生成机制流程图。图8是本专利技术一种基于内在奖励的视频游戏决策方法的差异化的奖励融合方式示意图。图9是本专利技术一种基于内在奖励的视频游戏决策方法的价值网络结构的变化图。图10是本专利技术一种基于内在奖励的视频游戏决策方法的内在奖励策略优化算流程图。图11是本专利技术一种基于内在奖励的视频游戏决策方法的Vizdoom平台寻路场景图。图12是本专利技术一种基于内在奖励的视频游戏决策方法的IBPO算法训练效果对比图。具体实施方式下面结合附图说明及具体实施方式对本专利技术作进一步说明。应用深度强化学习方法,结合先进的内在奖励机制,形成具有一定智能水平的决策模型和技术,从而使游戏智能体在视频游戏获取高分,是本专利技术的核心内容。本专利技术主要研究非完备信息条件下三维视频游戏的策略求解问题。(1)针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本专利技术提出了一种内在奖励模型。(2)通过将内在奖励与外部奖励差异性融合,提出内在奖励策略优化算法。如图1所示,一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本专利技术主要研究非完备信息条件下三维视频游戏的策略求解问题。针对视频游戏博弈中高维状态空间与信息感知不完全的问题,提出了一种基于内在奖励策略优化算法的深度强化学习方法。在该方法中,首先针对三维场景中较为常见的缺乏环境反馈奖励值的问题,本专利技术提出了内在奖励模型,通过设计目标映射网络与预测网络产生内在奖励值弥补环境反馈奖励值的缺失,辅助智能体进行策略更新。其次,考虑到内在奖励模型与传统策略优化算法的结构性差异,通过调整价值网络的结构对两者进行融合,进而提出内在奖励策略优化算法,提升了智能体在稀疏奖励三维场景中的行动效果。如图1所示为基于内部奖励的视频游戏决策方法的整体流程图。本专利技术提供的一种基于内在奖励的视频游戏决策方法,具体过程如下:1、获取并安装视频游戏模拟环境;近年来DRL(深度强化学习)随着深度学习的热度增长也大热。于是各种新的强化学习研究平台如雨后春芛冒出来,而且趋势也是从简单的toy场景慢慢扩展到3D迷宫,第一人称射击游戏,即时策略类游戏和复杂机器人控制场景等。比如,Vizdoom允许开发使用视觉信息(屏幕缓冲区)播放DOOM的AI机器人。它主要用于机器视觉学习,尤其是深度强化学习的研究。通过Vizdoom官网获取并安装Vizdoom模拟游戏环境,如图2所示。2、构建神经网络;如图3所示为使用深度强化学习解决视频游戏的网络结构图,图中模型的输入为视频游戏的每帧图像,模型的输出为对应视频游戏的操作,而中间层的网络的参数则是需要使用深度强化学习本文档来自技高网
...

【技术保护点】
1.一种基于内在奖励的视频游戏决策方法,其特征在于,包括以下步骤:/nS1、获取视频游戏模拟环境;/nS2、构建神经网络模型;/nS3、设计内在奖励模型;/nS4、将内在奖励模型与构建的神经网络模型结构结合;/nS5、通过模拟环境获取游戏的记录;/nS6、通过获取的游戏记录,更新神经网络模型;/nS7、循环训练神经网络模型直至收敛。/n

【技术特征摘要】
1.一种基于内在奖励的视频游戏决策方法,其特征在于,包括以下步骤:
S1、获取视频游戏模拟环境;
S2、构建神经网络模型;
S3、设计内在奖励模型;
S4、将内在奖励模型与构建的神经网络模型结构结合;
S5、通过模拟环境获取游戏的记录;
S6、通过获取的游戏记录,更新神经网络模型;
S7、循环训练神经网络模型直至收敛。


2.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤S3包括:设计内在奖励生成模块,该内在奖励生成模块定义相同结构的目标映射网络与预测网络,利用目标映射网络和预测网络对输入三维状态画面进行特征抽取与状态映射,分别得到对应的嵌入向量,通过计算两者的相似度来得到内在奖励的数值。


3.根据权利要求2所述的基于内在奖励的视频游戏决策方法,其特征在于:在步骤S3中,目标映射网络与预测网络的定义分别如公式(3-1)和公式(3-2)所示:
目标映射网络定义为状态到目标嵌入向量的映射:



式中,

———目标映射网络;

———状态;

———目标嵌入向量;
预测网络定义为状态到预测嵌入向量的映射:



式中,

———预测网络;

———状态;

———目标嵌入向量。


4.根据权利要求3所述的基于内在奖励的视频游戏决策方法,其特征在于:在步骤S3
中,内在奖励生成模块的损失函数定义为:



式中———预测向量;

———目标向量;

———参数正则化项;

———正则项惩罚因子。


5.根据权利要求1所述的基于内在奖励的视频游戏决策方法,其特征在于:步骤S3包括内在奖励生成算法,该内在奖励生成算法如下:
输入:
随机初始化步长,训练回合终止步长,随机策略,
衰减因子,时间步;
输出:
内在奖励值,
1):初始化参数;
2):当时,循环执行以下步骤:
3):根据随机策略采样当前时间步动作;
4):基于动作得到下一状态;

【专利技术属性】
技术研发人员:王轩漆舒汉张加佳曹睿何志坤刘洋蒋琳廖清夏文李化乐
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1