基于强化学习的游戏关卡推荐方法和装置制造方法及图纸

技术编号:36511989 阅读:14 留言:0更新日期:2023-02-01 15:40
本申请实施例提供一种基于强化学习的游戏关卡推荐装置及方法,所述装置包括:状态输入部,其收集玩家的游戏相关数据;第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息;以及参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。通过本申请实施例,自适应地为玩家推荐难度适宜的游戏关卡。自适应地为玩家推荐难度适宜的游戏关卡。自适应地为玩家推荐难度适宜的游戏关卡。

【技术实现步骤摘要】
基于强化学习的游戏关卡推荐方法和装置


[0001]本申请涉及机器学习
,特别涉及基于强化学习的游戏关卡推荐方法和装置。

技术介绍

[0002]在策略型游戏中,例如棋牌类游戏中,由于玩家个人的游戏技能或玩家的实时状态存在差异,如何让玩家的个人技能与游戏的难度相适应,是影响玩家游戏体验的重要因素。
[0003]在现有的游戏设计中,往往都是从设计师和策划者的视角出发,难以满足玩家的个性化需求,例如对于游戏技能不同的玩家或者同一玩家的实时游戏状态的差异,现有的游戏设计难以精确提供难度匹配的游戏关卡,影响玩家的游戏体验。
[0004]应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

技术实现思路

[0005]考虑游戏的OCR(object,challenge,reward)设计逻辑。在游戏的体验中,目标明确,任务挑战和玩家技能水平平衡,才能获得愉悦的游戏体验。
[0006]专利技术人发现,基于个性化的数据支撑,通过数据迭代,能够充分匹配玩家的技能和关卡难度,让玩家既能体会到游戏的竞技难度,也能获得游戏通关的喜悦,从而是的玩家能够获得沉浸的游戏体验。
[0007]本申请实施例提供一种基于强化学习的游戏关卡推荐方法和装置,自适应地为玩家推送难度适宜的游戏关卡。
[0008]根据本申请第一方面的实施例,提供了一种基于强化学习的游戏关卡推荐装置,所述装置包括:状态输入部,其收集玩家的游戏相关数据;第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息;以及参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。
[0009]在一个或多个实施例中,所述状态输入部收集所述玩家的实时游戏数据和历史游戏数据作为所述游戏相关数据,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
[0010]在一个或多个实施例中,所述评价信息表示玩家的技能水平与关卡的最优技能解
法的匹配程度。
[0011]在一个或多个实施例中,所述评价信息由如下公式(1)生成:所述r为所述评价信息,所述是玩家在所述第一神经网络所推荐的游戏关卡的通关时间与最优解法的时间差,s
p
是玩家通关过程中每次操作的时间间隔,t
total
是玩家本次游戏时间。
[0012]在一个或多个实施例中,所述第一参数为θ,所述第二参数为ω,通过如下公式更新所述第一参数和所述第二参数:二参数:其中,其中,t表示离散时间,α
θ
和α
ω
是学习率也就是更新步长,s表示状态,a表示动作,δ表示奖励r的变化,μ
θ
表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的第一参数, 表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减,ω是评价网络即第二神经网络的参数。
[0013]在一个或多个实施例中,所述状态输入部将所述玩家的游戏相关数据映射为玩家状态空间集合中的一个状态,所述第一神经网络根据所述状态为所述玩家推荐难度匹配的游戏关卡。
[0014]在一个或多个实施例中,所述装置包括关卡数据库,所述关卡数据库存储多个随机序列的种子以及对应的关卡的难度,任意一个种子对应的随机序列表示对应关卡的信息,所述难度为关卡最优解需要的步数与对应关卡的玩家历史游戏数据记录的比值,所述第一神经网络从所述关卡数据库提取与推荐给玩家的游戏关卡的难度对应的种子。
[0015]本申请第二方面的实施例提供一种基于强化学习的游戏关卡推荐方法,所述方法包括:收集玩家的游戏相关数据;利用第一神经网络根据收集的游戏相关数据为所述玩家推荐难度匹配的游戏关卡;
利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息;以及根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。
[0016]在一个或多个实施例中,所述利用第二神经网络根据收集的游戏相关数据和所推荐的游戏关卡生成评价信息包括:第二神经网络根据收集的所述玩家的实时游戏数据、历史游戏数据和所推荐的游戏关卡生成评价信息,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。
[0017]根据本申请其它方面的实施例,提供一种计算机设备,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请第二方面实施例所述的评估方法。
[0018]根据本申请其它方面的实施例,提供一种计算机可读的存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请第二方面实施例所述的评估方法。
[0019]本申请实施例的有益效果之一在于:第一神经网络根据玩家的游戏相关数据为玩家推荐难度匹配的游戏关卡;第二神经网络根据玩家的游戏相关数据和第一神经网络所推荐的游戏关卡生成评价信息;参数更新部根据评价信息更新第一神经网络的第一参数和第二神经网络的第二参数。由此,采用自适应的深度强化学习,根据玩家的技能水平和游戏状态,动态实时调整和匹配游戏难度,让玩家的技能水平和游戏关卡的难度充分匹配,使玩家获得满意的游戏过关体验。
[0020]参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
[0021]针对一种实施方式描述以及示出的特征信息可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征信息相组合,或替代其它实施方式中的特征信息。
[0022]应该强调,术语“包括/包含”在本文使用时指特征信息、整件、步骤或组件的存在,但并不排除一个或更多个其它特征信息、整件、步骤或组件的存在或附加。
附图说明
[0023]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是强化学习模型的一个示意图;图2是本申请实施例的基于强化学习的游戏关卡推荐装置的一个示意图;图3示出了以Actor

Critic框架表示的强化学习模型的一个示意图;图4示出了确定性策略梯度网络结构的一个示意图;
图5是本申请实施例的基于强化学习的游戏关卡推荐方法的一个示意图。
具体实施方式
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的游戏关卡推荐装置,其特征在于,所述装置包括:状态输入部,其收集玩家的游戏相关数据;第一神经网络,其根据所述状态输入部收集的游戏相关数据,为所述玩家推荐难度匹配的游戏关卡;第二神经网络,其根据所述状态输入部收集的游戏相关数据和所述第一神经网络所推荐的游戏关卡生成评价信息;以及参数更新部,其根据所述评价信息更新所述第一神经网络的第一参数和所述第二神经网络的第二参数。2.根据权利要求1所述的装置,其特征在于,所述状态输入部收集所述玩家的实时游戏数据和历史游戏数据作为所述游戏相关数据,所述实时游戏数据包括所述玩家在所述第一神经网络所推荐的游戏关卡的游戏数据。3.根据权利要求2所述的装置,其特征在于,所述评价信息表示玩家的技能水平与关卡的最优技能解法的匹配程度。4.根据权利要求3所述的装置,其特征在于,所述评价信息由如下公式(1)生成:所述r为所述评价信息,所述是玩家在所述第一神经网络所推荐的游戏关卡的通关时间与最优解法的时间差,s
p
是玩家通关过程中每次操作的时间间隔,t
total
是玩家本次游戏时间。5.根据权利要求4所述的装置,其特征在于,所述第一参数为θ,所述第二参数为ω,通过如下公式更新所述第一参数和所述第二参数:数:其中,其中,t表示离散时间,α
θ
和α
ω
是学习率也就是更新步长,s表示状态,a表示动作,δ表示奖励r的变化,μ
θ
表示确定性策略,θ是需要学习的策略网络的参数即第一神经网络的第一参数, 表示的是求导操作,γ表示折扣因子,用于给不同的时间的奖励r不同的衰减,ω...

【专利技术属性】
技术研发人员:朱舟
申请(专利权)人:优友互动北京科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1