用于游戏的处理系统、方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26152831 阅读:12 留言:0更新日期:2020-10-31 11:56
本申请实施例提供了一种用于游戏的处理系统、方法、装置、电子设备及存储介质,系统包括:游戏模拟器用于基于游戏规则和当前游戏状态,生成游戏状态参数,游戏规则预先封装在游戏模拟器内,游戏状态参数为当前游戏状态对应的满足游戏规则的下一步游戏状态的参数;训练平台用于接收游戏模拟器发送的游戏状态参数,并调用预测模型,通过预测模型生成与游戏状态参数对应的预测数据,并在确定与预测数据对应的目标动作之后,至少根据执行目标动作的执行结果,更新预测模型。由于在针对不同玩法的游戏训练预测模型时,只需要调用游戏模拟器中封装的对应的游戏规则,不需要更改预测模型的结构,减少计算资源和信息处理资源的占用。

【技术实现步骤摘要】
用于游戏的处理系统、方法、装置、电子设备及存储介质
本申请涉及游戏数据处理
,特别是涉及一种用于游戏的处理系统、方法、装置、电子设备及存储介质。
技术介绍
网络游戏作为人们生活中的一种娱乐形式,已经成为人们生活中不可缺少的部分。网络游戏可以包括非完全信息游戏及完全信息游戏,一般都是多个玩家按照一定次序进行决策和行动,目标是取得游戏胜利,或尽可能获得最多游戏分。在完全信息游戏中,玩家可以获得所有游戏信息,例如,围棋、象棋等。而在非完全信息游戏中,每个玩家只能获得部分游戏信息,例如,在斗地主游戏中,玩家只知道自己的手牌、公共牌和已经出过的牌,不知道其他玩家的手牌。无论在非完全信息游戏还是完全信息游戏中,游戏模型可以起到陪玩等作用,对于优化用户体验非常重要。近年来,基于强化学习的游戏模型逐渐流行开来。基于强化学习的游戏模型可以通过游戏模型自身的博弈,产生训练数据,进行游戏模型的训练。该方法需要的人力少,且不需要真实玩家的数据,适用范围广。但是,由于每种游戏的规则都是不同的,例如斗地主和麻将,而斗地主又包括洗牌和不洗牌等玩法。这样,就需要针对每种游戏的不同玩法分别训练游戏模型,这样显然会耗费大量计算资源和信息处理资源。
技术实现思路
为克服相关技术中存在的问题,本申请实施例提供一种用于游戏的处理系统、方法、装置、电子设备及存储介质。具体技术方案如下:根据本申请实施例的第一方面,提供一种用于游戏的处理系统,所述系统包括:游戏模拟器,用于基于游戏规则和当前游戏状态,生成游戏状态参数,其中,所述游戏规则预先封装在所述游戏模拟器内,所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数;训练平台,用于接收所述游戏模拟器发送的游戏状态参数,并调用预测模型,通过所述预测模型生成与所述游戏状态参数对应的预测数据,并在确定与所述预测数据对应的目标动作之后,至少根据执行所述目标动作的执行结果,更新所述预测模型。作为一种实施方式,所述训练平台包括动作执行集群,其中,所述动作执行集群,用于将接收到的所述游戏状态参数发送至服务器集群;并接收所述服务器集群返回的预测数据,确定所述预测数据对应的目标动作,并执行所述目标动作,得到所述目标动作的执行结果,发送所述执行结果至训练集群。作为一种实施方式,所述服务器集群,用于接收所述动作执行集群发送的所述游戏状态参数,将所述游戏状态参数输入所述预测模型,生成与所述游戏状态参数对应的预测数据,并发送所述预测数据至所述动作执行集群;所述训练集群,用于接收所述动作执行集群发送的所述执行结果,并根据所述执行结果更新所述预测模型。作为一种实施方式,所述动作执行集群包括自我对战集群和实际对战集群;所述自我对战集群,用于在训练所述预测模型时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器;所述实际对战集群,用于在用户进行游戏对战时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器。作为一种实施方式,所述游戏模拟器,具体用于基于所述游戏规则和所述当前游戏状态,生成所述游戏状态对应的状态信息及多个动作信息,作为游戏状态参数;所述服务器集群,具体用于将所述游戏状态参数输入所述预测模型,生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识,作为预测数据;所述动作执行集群,具体用于根据所述动作评价标识、所述多个策略评价标识及预设策略,确定所述状态信息对应的目标策略及目标动作,并执行所述目标动作,记录所述状态信息与所述目标动作的对应关系,作为所述目标动作的执行结果;所述训练集群,具体用于根据所述对应关系及所述目标策略调整所述预测模型的参数。根据本申请实施例的第二方面,提供一种用于游戏的处理方法,所述方法包括:获取当前游戏状态;调用游戏模拟器,基于游戏规则和所述当前游戏状态,生成游戏状态参数,其中,所述游戏规则预先封装在所述游戏模拟器内,所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数;调用预测模型,通过所述预测模型生成与所述游戏状态参数对应的预测数据;在确定与所述预测数据对应的目标动作之后,至少根据执行所述目标动作的执行结果,更新所述预测模型。作为一种实施方式,所述获取当前游戏状态的步骤,包括:在训练所述预测模型时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器;或,在与用户进行游戏对战时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器。作为一种实施方式,所述基于游戏规则和所述当前游戏状态,生成游戏状态参数的步骤,包括:基于所述游戏规则和所述当前游戏状态,生成所述当前游戏状态对应的状态信息及多个动作信息,作为游戏状态参数。作为一种实施方式,所述通过所述预测模型生成与所述游戏状态参数对应的预测数据的步骤,包括:将所述状态信息及多个动作信息输入所述预测模型,生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识,作为预测数据。作为一种实施方式,所述将所述游戏状态参数输入所述预测模型,生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识的步骤,包括:将所述状态信息与每个动作信息进行拼接,得到多个输入信息;将所述多个输入信息输入所述预测模型,通过卷积处理及池化处理得到每个输入信息对应的动作评价标识及策略评价标识。作为一种实施方式,所述至少根据执行所述目标动作的执行结果,更新所述预测模型的步骤,包括:根据所述动作评价标识、所述多个策略评价标识及预设策略,确定所述状态信息对应的目标策略及目标动作,并执行所述目标动作;记录所述状态信息与所述目标动作的对应关系,作为所述目标动作的执行结果;根据所述对应关系及所述目标策略调整所述预测模型的参数。作为一种实施方式,所述根据所述动作评价标识、所述多个策略评价标识及预设策略,确定所述状态信息对应的目标策略及目标动作的步骤,包括:根据所述多个策略评价标识及预设策略,从所述预设策略中确定所述状态信息对应的目标策略;根据所述动作评价标识及所述目标策略,从所述多个动作信息中确定所述状态信息对应的目标动作信息;将所述目标动作信息表示的动作确定为目标动作。作为一种实施方式,所述预测模型包括动作神经网络和策略神经网络;所述根据所述对应关系及所述目标策略调整所述预测模型的参数的步骤,包括:将所记录的对应关系作为第一样本,输入所述动作神经网络,得到每个第一样本对应的策略评价标识;根据所述每个第一样本对应的策略评价标识,计算得到所述策略神经网络的第一损失函数值;将所记录的对应关系中相邻的两个记录作为第二样本;将所述第二样本中记录时间早的对应关系输入所述动作神经网络,得到第一动作评价标识;将所述第二样本中记录时间晚的对应关系输入所述策略神经网络,得到第二动作评价标本文档来自技高网...

【技术保护点】
1.一种用于游戏的处理系统,其特征在于,所述系统包括:/n游戏模拟器,用于基于游戏规则和当前游戏状态,生成游戏状态参数,其中,所述游戏规则预先封装在所述游戏模拟器内,所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数;/n训练平台,用于接收所述游戏模拟器发送的游戏状态参数,并调用预测模型,通过所述预测模型生成与所述游戏状态参数对应的预测数据,并在确定与所述预测数据对应的目标动作之后,至少根据执行所述目标动作的执行结果,更新所述预测模型。/n

【技术特征摘要】
1.一种用于游戏的处理系统,其特征在于,所述系统包括:
游戏模拟器,用于基于游戏规则和当前游戏状态,生成游戏状态参数,其中,所述游戏规则预先封装在所述游戏模拟器内,所述游戏状态参数为所述当前游戏状态对应的满足所述游戏规则的下一步游戏状态的参数;
训练平台,用于接收所述游戏模拟器发送的游戏状态参数,并调用预测模型,通过所述预测模型生成与所述游戏状态参数对应的预测数据,并在确定与所述预测数据对应的目标动作之后,至少根据执行所述目标动作的执行结果,更新所述预测模型。


2.如权利要求1所述的系统,其特征在于,所述训练平台包括动作执行集群,其中,
所述动作执行集群,用于将接收到的所述游戏状态参数发送至服务器集群;并接收所述服务器集群返回的预测数据,确定所述预测数据对应的目标动作,并执行所述目标动作,得到所述目标动作的执行结果,发送所述执行结果至训练集群。


3.如权利要求2所述的系统,其特征在于,
所述服务器集群,用于接收所述动作执行集群发送的所述游戏状态参数,将所述游戏状态参数输入所述预测模型,生成与所述游戏状态参数对应的预测数据,并发送所述预测数据至所述动作执行集群;
所述训练集群,用于接收所述动作执行集群发送的所述执行结果,并根据所述执行结果更新所述预测模型。


4.如权利要求2所述的系统,其特征在于,所述动作执行集群包括自我对战集群和实际对战集群;
所述自我对战集群,用于在训练所述预测模型时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器;
所述实际对战集群,用于在用户进行游戏对战时,获取当前游戏状态,并发送所述当前游戏状态至所述游戏模拟器。


5.如权利要求2所述的系统,其特征在于,
所述游戏模拟器,具体用于基于所述游戏规则和所述当前游戏状态,生成所述游戏状态对应的状态信息及多个动作信息,作为游戏状态参数;
所述服务器集群,具体用于将所述游戏状态参数输入所述预测模型,生成与所述游戏状态参数对应的动作评价标识及多个策略评价标识,作为预测数据;
所述动作执行集群,具体用于根据所述动作评价标识、所述多个策略评价标识及预设策略,确定所述状态信息对应的目标策略及目标动作,并执行所述目标动作,记录所述...

【专利技术属性】
技术研发人员:田勇叶璨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1