基于强化学习的游戏关卡推荐方法和装置制造方法及图纸

技术编号：36511989 阅读：14 留言：0更新日期：2023-02-01 15:40

本申请实施例提供一种基于强化学习的游戏关卡推荐装置及方法，所述装置包括：状态输入部，其收集玩家的游戏相关数据；第一神经网络，其根据所述状态输入部收集的游戏相关数据，为所述玩家推荐难度匹配的游戏关卡；第二神经网络，其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息；以及参数更新部，其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。通过本申请实施例，自适应地为玩家推荐难度适宜的游戏关卡。自适应地为玩家推荐难度适宜的游戏关卡。自适应地为玩家推荐难度适宜的游戏关卡。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的游戏关卡推荐方法和装置

[0001]本申请涉及机器学习
，特别涉及基于强化学习的游戏关卡推荐方法和装置。

技术介绍

[0002]在策略型游戏中，例如棋牌类游戏中，由于玩家个人的游戏技能或玩家的实时状态存在差异，如何让玩家的个人技能与游戏的难度相适应，是影响玩家游戏体验的重要因素。
[0003]在现有的游戏设计中，往往都是从设计师和策划者的视角出发，难以满足玩家的个性化需求，例如对于游戏技能不同的玩家或者同一玩家的实时游戏状态的差异，现有的游戏设计难以精确提供难度匹配的游戏关卡，影响玩家的游戏体验。
[0004]应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

技术实现思路

[0005]考虑游戏的OCR（object，challenge，reward）设计逻辑。在游戏的体验中，目标明确，任务挑战和玩家技能水平平衡，才能获得愉悦的游戏体验。
[0006]专利技术人发现，基于个性化的数据支撑，通过数据迭代，能够充分匹配玩家的技能和关卡难度，让玩家既能体会到游戏的竞技难度，也能获得游戏通关的喜悦，从而是的玩家能够获得沉浸的游戏体验。
[0007]本申请实施例提供一种基于强化学习的游戏关卡推荐方法和装置，自适应地为玩家推送难度适宜的游戏关卡。
[0008]根据本申请第一方面的实施例，提供了一...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的游戏关卡推荐装置，其特征在于，所述装置包括：状态输入部，其收集玩家的游戏相关数据；第一神经网络，其根据所述状态输入部收集的游戏相关数据，为所述玩家推荐难度匹配的游戏关卡；第二神经网络，其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息；以及参数更新部，其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。2.根据权利要求1所述的装置，其特征在于，所述状态输入部收集所述玩家的实时游戏数据和历史游戏数据作为所述游戏相关数据，所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。3.根据权利要求2所述的装置，其特征在于，所述评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度。4.根据权利要求3所述的装置，其特征在于，所述评价信息由如下公式（1）生成：所述r为所述评价信息，所述是玩家在所述第一神经网络所推荐的游戏关卡的通关时间与最优解法的时间差，s
p
是玩家通关过程中每次操作的时间间隔，t
total
是玩家本次游戏时间。5.根据权利要求4所述的装置，其特征在于，所述第一参数为θ，所述第二参数为ω，通过如下公式更新所述第一参数和所述第二参数：数：其中，其中，t表示离散时间，α
θ
和α
ω
是学习率也就是更新步长，s表示状态，a表示动作，δ表示奖励r的变化，μ
θ
表示确定性策略，θ是需要学习的策略网络的参数即第一神经网络的第一参数，表示的是求导操作，γ表示折扣因子，用于给不同的时间的奖励r不同的衰减，ω...

【专利技术属性】
技术研发人员：朱舟，
申请(专利权)人：优友互动北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人