基于强化学习的游戏引擎优化方法及装置制造方法及图纸

技术编号:40913631 阅读:22 留言:0更新日期:2024-04-18 14:41
本发明专利技术提供了一种基于强化学习的游戏引擎优化方法及装置,涉及游戏技术领域。该游戏引擎优化方法包括:利用预训练的游戏环境模型对游戏环境数据进行预测,并基于预测的结果利用强化学习算法中的价值网络更新游戏环境模型中的参数,然后通过策略梯度算法对更新后的游戏环境模型进行求解,得到目标控制策略,以根据目标控制策略对游戏引擎进行优化。根据本发明专利技术实施例的基于强化学习的游戏引擎优化方法,根据预测结果更新模型参数,减少了对真实游戏环境的依赖性,且通过价值网络及策略梯度算法对游戏环境模型的参数进行更新,可以提高游戏环境模型的学习效率以准确反应游戏环境和用户行为。

【技术实现步骤摘要】

所属的技术人员能够理解,本专利技术的各个方面可以实现为装置、方法或程序产品。因此,本专利技术的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。下面参照图5来描述根据本专利技术的这种实施例的电子设备500。图5所示的电子设备500仅仅是一个示例,不应对本专利技术实施例的功能和使用范围带来任何限制。如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540。其中,存储单元存储有程序代码,程序代码可以被处理单元510执行,使得处理单元510执行本专利技术上述“示例性方法”部分中描述的根据本专利技术各种示例性实施例的步骤。例如,处理单元510可以执行如图1中所示的步骤s110,获取游戏环境数据,并根据游戏环境数据训练预构建的游戏环境模型,得到初始游戏环境模型,其中,游戏环境模型基于强化学习框架构建;步骤本文档来自技高网...

【技术保护点】

1.一种基于强化学习的游戏引擎优化方法,其特征在于,包括:

2.如权利要求1所述的游戏引擎优化方法,其特征在于,所述将当前时刻的所述游戏环境数据输入到所述初始游戏环境模型中进行预测,包括:

3.如权利要求1或2所述的游戏引擎优化方法,其特征在于,所述基于预测的结果并利用强化学习算法中的价值网络更新所述初始游戏环境模型中的参数,包括:

4.如权利要求3所述的游戏引擎优化方法,其特征在于,利用所述价值网络预测当前时刻的控制策略的目标价值之前,所述方法还包括:

5.如权利要求3所述的游戏引擎优化方法,其特征在于,所述价值网络包括第一价值网络和第二...

【技术特征摘要】

1.一种基于强化学习的游戏引擎优化方法,其特征在于,包括:

2.如权利要求1所述的游戏引擎优化方法,其特征在于,所述将当前时刻的所述游戏环境数据输入到所述初始游戏环境模型中进行预测,包括:

3.如权利要求1或2所述的游戏引擎优化方法,其特征在于,所述基于预测的结果并利用强化学习算法中的价值网络更新所述初始游戏环境模型中的参数,包括:

4.如权利要求3所述的游戏引擎优化方法,其特征在于,利用所述价值网络预测当前时刻的控制策略的目标价值之前,所述方法还包括:

5.如权利要求3所述的游戏引擎优化方法,其特征在于,所述价值网络包括第一价值...

【专利技术属性】
技术研发人员:张峰梁淼
申请(专利权)人:北京鸿途信达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1