基于辅助任务学习的视频游戏决策方法技术

技术编号:24458999 阅读:146 留言:0更新日期:2020-06-10 16:25
本发明专利技术提供了一种基于辅助任务学习的视频游戏决策方法,包括以下步骤:S1、构建神经网格模型;S2、启动多进程视频游戏环境;S3、判断是否运行了指定轮次,如果否,则进入步骤S4,如果是,则进入步骤S6;S4、获取游戏经验,更新经验池;S5、将经验输入到神经网格模型,更新神经网格模型参数,返回步骤S3;S6、保存神经网格模型;S7、在视频游戏里利用神经网格模型决策;S8、结束。本发明专利技术的有益效果是:可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。

Video game decision method based on assistant task learning

【技术实现步骤摘要】
基于辅助任务学习的视频游戏决策方法
本专利技术涉及视频游戏决策方法,尤其涉及一种基于辅助任务学习的视频游戏决策方法。
技术介绍
视频游戏出现于20世纪70年代初,自视频游戏诞生起,通过人工智能技术实现视频游戏中的智能体的自动决策这项技术,一直是工业界和学术界研究的热点,有着巨大的商业价值。近年来,深度强化学习方法的快速发展为实现这项技术提供了有效途径。通常来讲,游戏决策技术的好坏完全由游戏中得分多少或者能否赢得比赛而决定,视频游戏也是如此。人工智能技术的发展日新月异,机器博弈作为其中的热门研究领域受到了研究者的广泛关注。近年来,以深度强化学习算法为代表的机器博弈方法得到了长足的发展。一方面,AlphaGo等围棋智能体的成功标志着深度强化学习算法在完备信息机器博弈领域已取得了重大突破。另一方面,非完备信息机器博弈因其复杂度高、信息感知不完全等特点,已成为人工智能领域新的研究焦点。针对视频游戏博弈中高维状态空间与信息感知不完全的问题虽然利用基于内在奖励策略优化算法的深度强化学习方法可以较好的解决,但是内在奖励生成模块的原理是根据对未本文档来自技高网...

【技术保护点】
1.一种基于辅助任务学习的视频游戏决策方法,其特征在于,包括以下步骤:/nS1、构建神经网格模型;/nS2、启动多进程视频游戏环境;/nS3、判断是否运行了指定轮次,如果否,则进入步骤S4,如果是,则进入步骤S6;/nS4、获取游戏经验,更新经验池;/nS5、将经验输入到神经网格模型,更新神经网格模型参数,返回步骤S3;/nS6、保存神经网格模型;/nS7、在视频游戏里利用神经网格模型决策;/nS8、结束。/n

【技术特征摘要】
1.一种基于辅助任务学习的视频游戏决策方法,其特征在于,包括以下步骤:
S1、构建神经网格模型;
S2、启动多进程视频游戏环境;
S3、判断是否运行了指定轮次,如果否,则进入步骤S4,如果是,则进入步骤S6;
S4、获取游戏经验,更新经验池;
S5、将经验输入到神经网格模型,更新神经网格模型参数,返回步骤S3;
S6、保存神经网格模型;
S7、在视频游戏里利用神经网格模型决策;
S8、结束。


2.根据权利要求1所述的基于辅助任务学习的视频游戏决策方法,其特征在于:步骤S1包括以下子步骤:
S101、基于辅助任务学习的奖励特征增强方法;
S102、结合辅助任务学习的内在奖励策略优化方法;
S103、构建神经网格模型。


3.根据权利要求2所述的基于辅助任务学习的视频游戏决策方法,其特征在于:基于辅助任务学习的奖励特征增强方法,其框架定义如下:

(3-1)
式(3-1)中;

——智能体的行动策略;

——辅助任务集合;

——折扣奖励值;

——辅助任务对应的策略;
式(3-1)定义了辅助任务学习机制的基本框架,辅助任务学习为智能体在三维场景中提供对应的辅助性策略。


4.根据权利要求2所述的基于辅助任务学习的视频游戏决策方法,其特征在于:步骤S101包括以下子步骤:
S1011、基于奖励预测的特征增强方法;
S1012、基于状态价值的特征增强方法;
S1013、基于动作价值的特征增强方法。


5.根据权利要求4所述的基于辅助任务学习的视频游戏决策方法,其特征在于:步骤
S1011包括:利用经验回放池中的状态信息和奖励信息,从中采样连续时间步的输入帧画面
信息与下一状态的奖励信息作为数据样本训练奖励预测网络,数据样本训练奖励预测网络
由浅层卷积神经网络表示,在数据样本训练奖励预测网络中,采样连续三个时刻的输入帧
画面作为网络的输入,经过卷积层与全连接层的处理输出分类类别,而分类类别定义为智
能体所获奖励值的类别,包括正值奖励、负值奖励和零值奖励,分类任务的标签是从经验回
放池中采样的下一时刻的奖励信息对应的独热编码,根据常用于分类任务的多类别交叉熵
损失函数把奖励预测网络的损失函数定义为:

(3-2)
式(3-2)中,

——网络输出分类类别;

——下一时刻的奖励值独热编码。


6.根据权利要求4所述的基于辅助任务学习的视频游戏决策方法,其特征在于:步骤
S...

【专利技术属性】
技术研发人员:王轩张加佳漆舒汉曹睿杜明欣刘洋蒋琳廖清夏文李化乐
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1