System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 游戏目标控制方法、装置、设备及计算机可读存储介质制造方法及图纸_技高网

游戏目标控制方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:41288574 阅读:6 留言:0更新日期:2024-05-11 09:37
本发明专利技术涉及人工智能领域,本发明专利技术提供一种游戏目标控制方法、装置、设备及计算机可读存储介质,包括:通过目标感知单元对输入图像进行特征提取得到嵌入特征;将输入图像、嵌入特征以及目标状态信息输入分层控制单元,得到控制动作策略及其对应的状态策略对;基于示范学习单元优化分层强化学习系统;根据优化后的分层强化学习系统对游戏目标进行控制。本发明专利技术通过目标感知单元获取同时融合目标位置信息和距离信息的嵌入特征,然后利用专家示范学习单元中的示范数据信息预热分层强化学习系统,分层控制单元快速且针对性训练分层强化学习系统,并结合密集的内在奖励函数解决奖励稀疏问题,达到高样本效率训练的同时具有高决策水平和控制能力。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,尤其涉及一种游戏目标控制方法、装置、设备及计算机可读存储介质


技术介绍

1、强化学习算法在仅有较小动作和状态空间的游戏中已经取得了成功,但现有强化学习算法难以拓展到更加真实环境的游戏中,难以学习具有人类水平的控制决策。常见的强化学习算法仅使用游戏原始图像作为输入,单层端到端输出决策动作,并保存在线经验轨迹用于更新网络参数。这种训练样本方式效率极为低下,浪费大量资源用于早期随机探索学习以及图像高维特征的提取,另一方面,面对复杂动作控制任务,常规强化学习算法难以构建高水平的动作决策序列,这也意味着游戏目标无法实现有效的策略(技能动作组合)来完成任务。因此,现有常规强化学习方法面临着样本效率和性能等多方面的瓶颈,亟需更加高效和高性能的强化学习方法实现游戏目标的策略控制。


技术实现思路

1、本专利技术提供一种游戏目标控制方法、装置、设备及计算机可读存储介质,用以解决现有游戏目标的策略控制方法存在的样本效率低和性能差技术问题。

2、本专利技术提供一种游戏目标控制方法,应用于包括目标感知单元、分层控制单元和示范学习单元的分层强化学习系统,游戏目标控制方法包括:

3、通过所述目标感知单元对输入图像进行特征提取,得到融合目标位置信息和距离信息的嵌入特征;

4、将所述输入图像、所述嵌入特征以及目标状态信息输入所述分层控制单元,得到控制动作策略及其对应的状态策略对;

5、基于所述示范学习单元优化所述分层强化学习系统,直至优化后的分层强化学习系统满足预设条件,所述状态策略对保存在所述示范学习单元中;

6、根据优化后的分层强化学习系统对游戏目标进行控制。

7、根据本专利技术提供的一种游戏目标控制方法,所述目标感知单元包括实时目标检测网络和深度特征融合模块;所述通过所述目标感知单元对输入图像进行特征提取,得到融合目标位置信息和距离信息的嵌入特征包括:

8、通过所述实时目标检测网络对输入图像进行特征提取,得到检测特征;

9、将所述检测特征转换为深度掩码;

10、基于所述输入图像对应的深度图像以及所述深度掩码,确定融合目标位置信息和距离信息的嵌入特征。

11、根据本专利技术提供的一种游戏目标控制方法,所述分层控制单元包括第一网络和第二网络;所述示范学习单元包括示范数据经验池;所述游戏目标控制方法还包括:

12、基于预设示范数据集对所述示范数据经验池进行初始化;

13、根据初始化后的示范数据经验池中的状态网络对,以及预设交叉熵函数对所述第一网络进行预训练;

14、将所述目标状态信息输入预训练后的第一网络,确定各所述第二网络中的目标网络。

15、根据本专利技术提供的一种游戏目标控制方法,所述将所述输入图像、所述嵌入特征以及目标状态信息输入所述分层控制单元,得到控制动作策略及其对应的状态策略对包括:

16、将所述输入图像、所述嵌入特征以及所述目标状态信息输入所述目标网络,得到控制动作策略及其对应的状态动作对,状态策略对包括所述状态网络对和所述状态动作对。

17、根据本专利技术提供的一种游戏目标控制方法,所述游戏目标控制方法还包括:

18、将所述状态网络对和所述状态动作对保存至在线经验池中。

19、根据本专利技术提供的一种游戏目标控制方法,所述基于所述示范学习单元优化所述分层强化学习系统包括:

20、在所述在线经验池已满的情况下,从所述在线经验池和所述示范数据经验池随机采样,得到采样策略;

21、根据所述采样策略对应的优势函数和退火权重,确定所述采样策略的目标函数;

22、基于所述采样策略的目标函数优化所述分层强化学习系统。

23、根据本专利技术提供的一种游戏目标控制方法,所述基于所述示范学习单元优化所述分层强化学习系统,直至优化后的分层强化学习系统满足预设条件包括:

24、确定所述在线经验池和所述示范数据经验池中待更新策略与已采样策略的概率比;

25、在优化后的分层强化学习系统满足预设条件的情况下停止优化,所述预设条件是基于预设优化次数和所述概率比确定的。

26、本专利技术还提供一种游戏目标控制装置,包括:

27、特征提取模块,用于通过目标感知单元对输入图像进行特征提取,得到融合目标位置信息和距离信息的嵌入特征;

28、策略对提取模块,用于将所述输入图像、所述嵌入特征以及目标状态信息输入分层控制单元,得到控制动作策略及其对应的状态策略对;

29、系统优化模块,用于基于示范学习单元优化分层强化学习系统,直至优化后的分层强化学习系统满足预设条件,所述状态策略对保存在所述示范学习单元中;

30、游戏目标控制模块,用于根据优化后的分层强化学习系统对游戏目标进行控制。

31、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述游戏目标控制方法。

32、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述游戏目标控制方法。

33、本专利技术提供的游戏目标控制方法、装置、设备及计算机可读存储介质,通过目标感知单元获取同时融合目标位置信息和距离信息的嵌入特征,然后利用专家示范学习单元中的示范数据信息预热分层强化学习系统,分层控制单元快速且针对性训练分层强化学习系统,并结合密集的内在奖励函数解决奖励稀疏问题,达到高样本效率训练的同时具有高决策水平和控制能力。

本文档来自技高网...

【技术保护点】

1.一种游戏目标控制方法,其特征在于,应用于包括目标感知单元、分层控制单元和示范学习单元的分层强化学习系统,所述游戏目标控制方法包括:

2.根据权利要求1所述的游戏目标控制方法,其特征在于,所述目标感知单元包括实时目标检测网络和深度特征融合模块;所述通过所述目标感知单元对输入图像进行特征提取,得到融合目标位置信息和距离信息的嵌入特征包括:

3.根据权利要求1所述的游戏目标控制方法,其特征在于,所述分层控制单元包括第一网络和第二网络;所述示范学习单元包括示范数据经验池;所述游戏目标控制方法还包括:

4.根据权利要求3所述的游戏目标控制方法,其特征在于,所述将所述输入图像、所述嵌入特征以及目标状态信息输入所述分层控制单元,得到控制动作策略及其对应的状态策略对包括:

5.根据权利要求4所述的游戏目标控制方法,其特征在于,所述游戏目标控制方法还包括:

6.根据权利要求5所述的游戏目标控制方法,其特征在于,所述基于所述示范学习单元优化所述分层强化学习系统包括:

7.根据权利要求6所述的游戏目标控制方法,其特征在于,所述基于所述示范学习单元优化所述分层强化学习系统,直至优化后的分层强化学习系统满足预设条件包括:

8.一种游戏目标控制装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述游戏目标控制方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述游戏目标控制方法。

...

【技术特征摘要】

1.一种游戏目标控制方法,其特征在于,应用于包括目标感知单元、分层控制单元和示范学习单元的分层强化学习系统,所述游戏目标控制方法包括:

2.根据权利要求1所述的游戏目标控制方法,其特征在于,所述目标感知单元包括实时目标检测网络和深度特征融合模块;所述通过所述目标感知单元对输入图像进行特征提取,得到融合目标位置信息和距离信息的嵌入特征包括:

3.根据权利要求1所述的游戏目标控制方法,其特征在于,所述分层控制单元包括第一网络和第二网络;所述示范学习单元包括示范数据经验池;所述游戏目标控制方法还包括:

4.根据权利要求3所述的游戏目标控制方法,其特征在于,所述将所述输入图像、所述嵌入特征以及目标状态信息输入所述分层控制单元,得到控制动作策略及其对应的状态策略对包括:

5.根据权利要求4所述的游戏目...

【专利技术属性】
技术研发人员:万军钮龙宇
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1