当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

基于内在奖励的视频游戏决策方法技术

技术编号：24459002 阅读：83 留言：0更新日期：2020-06-10 16:25

本发明专利技术提供了一种基于内在奖励的视频游戏决策方法，包括以下步骤：S1、获取视频游戏模拟环境；S2、构建神经网络模型；S3、设计内在奖励模型；S4、将内在奖励模型与构建的神经网络模型结构结合；S5、通过模拟环境获取游戏的记录；S6、通过获取的游戏记录，更新神经网络模型；S7、循环训练神经网络模型直至收敛。本发明专利技术的有益效果是：较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。

Video game decision method based on intrinsic reward

全部详细技术资料下载

【技术实现步骤摘要】
基于内在奖励的视频游戏决策方法
本专利技术涉及视频游戏决策方法，尤其涉及一种基于内在奖励的视频游戏决策方法。
技术介绍
视频游戏出现于20世纪70年代初，自视频游戏诞生起，通过人工智能技术实现视频游戏中的智能体的自动决策这项技术，一直是工业界和学术界研究的热点，有着巨大的商业价值。近年来，深度强化学习方法的快速发展为实现这项技术提供了有效途径。通常来讲，游戏决策技术的好坏完全由游戏中得分多少或者能否赢得比赛而决定，视频游戏也是如此。深度强化学习算法应用于复杂博弈场景的优势在于其端到端的特性，通过深度强化学习算法学习智能体行动策略从而直接完成从输入游戏状态到输出可行动作的映射，这为解决各类博弈任务提供了一套通用的算法框架，而Actor-Critic算法是其中较具代表性的算法。在以Actor-Critic算法为基本框架的深度强化学习算法中，为了训练出各类机器博弈智能体，通常的做法是首先通过设计卷积网络对博弈状态进行特征提取，然后利用Actor网络进行智能体行动策略学习，利用Critic网络进行策略评估与改善，不断迭代训练直至收敛。然而在少数几个Atari视频游戏场景中，以该算法为基本框架的智能体很难学习到高效获取环境奖励的策略，这类场景所具备的一个相似点是智能体所处的环境比较复杂，很难直接获得奖励反馈，智能体往往需要经过一系列的行动决策或者参考较多的历史信息才能做出获得正向奖励值的动作。原因在于Actor-Critic算法实质上是综合考虑了值迭代方法与策略梯度方法，其中策略梯度方法需要根据智能体交互过程中的轨迹进...

【技术保护点】
1.一种基于内在奖励的视频游戏决策方法，其特征在于，包括以下步骤：/nS1、获取视频游戏模拟环境；/nS2、构建神经网络模型；/nS3、设计内在奖励模型；/nS4、将内在奖励模型与构建的神经网络模型结构结合；/nS5、通过模拟环境获取游戏的记录；/nS6、通过获取的游戏记录，更新神经网络模型；/nS7、循环训练神经网络模型直至收敛。/n

【技术特征摘要】
1.一种基于内在奖励的视频游戏决策方法，其特征在于，包括以下步骤：
S1、获取视频游戏模拟环境；
S2、构建神经网络模型；
S3、设计内在奖励模型；
S4、将内在奖励模型与构建的神经网络模型结构结合；
S5、通过模拟环境获取游戏的记录；
S6、通过获取的游戏记录，更新神经网络模型；
S7、循环训练神经网络模型直至收敛。

2.根据权利要求1所述的基于内在奖励的视频游戏决策方法，其特征在于：步骤S3包括：设计内在奖励生成模块，该内在奖励生成模块定义相同结构的目标映射网络与预测网络，利用目标映射网络和预测网络对输入三维状态画面进行特征抽取与状态映射，分别得到对应的嵌入向量，通过计算两者的相似度来得到内在奖励的数值。

3.根据权利要求2所述的基于内在奖励的视频游戏决策方法，其特征在于：在步骤S3中，目标映射网络与预测网络的定义分别如公式(3-1)和公式(3-2)所示：
目标映射网络定义为状态到目标嵌入向量的映射：

式中，

———目标映射网络；

———状态；

———目标嵌入向量；
预测网络定义为状态到预测嵌入向量的映射：

式中，

———预测网络；

———状态；

———目标嵌入向量。

4.根据权利要求3所述的基于内在奖励的视频游戏决策方法，其特征在于：在步骤S3
中，内在奖励生成模块的损失函数定义为：

式中———预测向量；

———目标向量；

———参数正则化项；

———正则项惩罚因子。

5.根据权利要求1所述的基于内在奖励的视频游戏决策方法，其特征在于：步骤S3包括内在奖励生成算法，该内在奖励生成算法如下：
输入:
随机初始化步长,训练回合终止步长,随机策略,
衰减因子,时间步；
输出:
内在奖励值，
1）:初始化参数；
2）:当时，循环执行以下步骤：
3）:根据随机策略采样当前时间步动作;
4）:基于动作得到下一状态;

【专利技术属性】
技术研发人员：王轩，漆舒汉，张加佳，曹睿，何志坤，刘洋，蒋琳，廖清，夏文，李化乐，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人