用于在视频游戏中模仿玩家玩游戏的定制的模型制造技术

技术编号:26957583 阅读:28 留言:0更新日期:2021-01-05 23:32
公开了以旨在模仿特定玩家将如何控制角色或实体的方式训练机器学习模型以控制视频游戏中的游戏中角色或其他实体的系统和方法。可以获得与特定玩家无关地训练的通用行为模型,并且然后基于所观察的特定玩家的玩游戏定制所述通用行为模型。定制训练过程可以包括冻结通用模型中的层或层次的至少一个子集,然后生成使用所述特定玩家的玩游戏数据训练的一个或多个附加的层或层次。

【技术实现步骤摘要】
用于在视频游戏中模仿玩家玩游戏的定制的模型相关申请的交叉引用本申请要求享有于2019年7月2日提交的第16/460,871号美国专利申请的权益,所述美国专利申请的全部内容据此通过引用并入本文。
技术介绍
视频游戏常常包括玩家控制的角色和非玩家角色(NPC)二者。传统上玩家通过经由游戏控制器(诸如具有按钮的控制器、方向垫、操纵杆和/或其他物理控制机构)、键盘、鼠标、触摸屏或其他输入设备提供的命令来控制视频游戏中的他的或她的玩家控制的角色。多玩家游戏常常使得多个远程定位的玩家能够以协作的方式——诸如在同一团队、党派、氏族或其他分组上——一起玩。多玩家游戏可以附加地或替代地包括单独地或者作为团队与其他玩家竞争的玩家。除了玩家控制的虚拟实体或角色之外,许多视频游戏还包括软件控制的虚拟实体或角色。在视频游戏中,这些软件控制的或以编程方式控制的角色有时可以被称为计算机玩家、网上机器人(bot)、人工智能(“AI”)单元、AI角色或非玩家角色(NPC)。NPC可以被编程为以对人类玩家显得逼真的方式响应于游戏中刺激(诸如涉及其他NPC或玩家控制的角色的游戏中动作或事件)。传统上,作为游戏开发过程的一部分,通常预先编程用于给定的NPC的行为。
技术实现思路
本公开内容的系统、方法和设备各自具有若干创新方面,其中没有一个方面单独担负本文所公开的所有期望属性。在一些实施方案中,一种系统可以包括数据存储器,所述数据存储器存储与一个或多个视频游戏相关联的通用玩家行为模型,其中所述通用玩家行为模型被配置为提供待在多个玩游戏情形中的每个中执行的游戏中动作的指示。所述系统还可以包括计算系统,所述计算系统与所述数据存储器电子通信并且被配置为执行计算机可读指令,所述计算机可读指令将所述计算系统配置为:从所述数据存储器检索所述通用玩家行为模型,其中在检索之前已经基于一个或多个玩家的玩游戏数据而与第一玩家的玩游戏数据无关地训练了所述通用玩家行为模型,并且所述通用玩家行为模型是包括多个层的机器学习模型;获得所述第一玩家的玩游戏数据,其中该玩游戏数据标识在视频游戏中的多个游戏状态中的每个游戏状态下由所述第一玩家执行的游戏中动作;将所述通用玩家行为模型中的所述多个层的至少一个子集指定为待在与所述第一玩家相关联的定制模型中使用的冻结层;基于所述第一玩家的所述玩游戏数据生成用于所述定制模型的一个或多个定制层,其中所述一个或多个定制层至少部分地依赖于所述通用玩家行为模型的所述冻结层,以预测在至少一个或多个游戏状态下将由所述第一玩家执行的游戏中动作;以及存储与所述第一玩家相关联的经训练的定制模型,其中所述经训练的定制模型包括所述一个或多个定制层并且还包括或依赖于所述通用玩家行为模型的所述冻结层,其中所述经训练的定制模型被配置为接收关于所述视频游戏的游戏状态的数据作为输入并且输出待在所述视频游戏中执行的自动化动作。上文的计算机系统可以具有以下特征中的一个、全部或任何组合。所述计算系统可以是视频游戏控制台系统、移动电话、平板设备或个人计算机中之一。所述计算系统可以具有足够的处理能力来训练所述一个或多个定制层,但是处理能力不足以充分训练具有所述通用玩家行为模型的复杂性级别的模型。当被提供有未出现在所述第一玩家的所述玩游戏数据中的输入游戏状态时,在所述经训练的定制模型中使用所述冻结层可以使得所述经训练的定制模型能够确定待输出的自动化动作。所述通用玩家行为模型可以是第一深度神经网络,其中所述经训练的定制模型是包括比所述第一深度神经网络更多的层的第二深度神经网络。所述第二深度神经网络中的大多数层可以是来自所述第一深度神经网络的冻结层,并且所述一个或多个定制层可以包括与所述第一深度神经网络的原始输出层不同的新的输出层。所述计算系统还可以被配置为至少将与所述第一玩家相关联的所述定制模型的所述一个或多个定制层提供给第二玩家的第二计算系统,以使在所述第二计算系统上操作的游戏应用程序模仿所述第一玩家的玩游戏。在一些实施方案中,一种计算机实施的方法可以包括:在包括计算机硬件的计算机系统的控制下,所述计算机系统被配置有计算机可执行指令,所述计算机可执行指令:获得通用玩家行为模型,其中基于视频游戏的多个玩家的玩游戏数据训练所述通用玩家行为模型,其中所述通用玩家行为模型被配置为提供待在多个玩游戏情形中的每个中执行的游戏中动作的指示;获得第一玩家的玩游戏数据,其中所述玩游戏数据标识在所述视频游戏中的多个游戏状态中的每个游戏状态下由所述第一玩家执行的游戏中动作,其中所述第一玩家不是与所述通用玩家行为模型的训练相关联的所述多个玩家中的一个;将所述通用玩家行为模型的多个部分并入与所述第一玩家相关联的定制模型,其中所述多个部分每个包括所述通用玩家行为模型中的一个层或层次;基于所述第一玩家的所述玩游戏数据生成用于所述定制模型的一个或多个定制部分,其中生成所述一个或多个定制部分包括训练所述定制模型以预测在特定游戏状态下将由所述第一玩家执行的游戏中动作,并且其中所述训练包括反复地更新所述一个或多个定制部分,而不改变并入所述定制模型的所述通用玩家行为模型的所述多个部分;以及将所述训练之后的所述定制模型存储为与所述第一玩家相关联的经训练的定制模型,其中所述经训练的定制模型包括所述一个或多个定制部分并且还包括或依赖于所述通用玩家行为模型的所述多个部分,其中所述经训练的定制模型被配置为接收关于所述视频游戏的游戏状态的数据作为输入并且输出待在所述视频游戏中执行的自动化动作。上文的计算机实施的方法还可以包括以下特征中的一个、全部或任何组合。所述通用玩家行为模型可以是深度神经网络,并且所述通用玩家行为模型的所述多个部分中的每个可以是所述深度神经网络中的一个不同的层。所述通用玩家行为模型可以是可堆叠模型,其中所述通用玩家行为模型的所述多个部分中的每个是所述可堆叠模型中的一个不同的层次。所述经训练的定制模型可以被配置为,在所述经训练的定制模型被提供第一游戏状态作为输入的给定的实例中:确定所述一个或多个定制部分中的一个层次是否能够预测至少具有阈值置信度的与所述第一游戏状态相关联的第一自动化动作;以及基于所述一个或多个定制部分中的所述层次预测至少具有阈值置信度的所述第一自动化动作,导致在所述视频游戏中执行所述第一自动化动作,而不在所述给定的实例中考虑所述通用玩家行为模型的任何部分。在其他实施方案中,上文的方法可以包括基于使用生成对抗模仿学习训练的鉴别器更新用于所述定制模型的所述一个或多个定制部分,以奖励对所述鉴别器显得是所述第一玩家的动作的所述定制模型的输出。在另一个实施方案中,所述方法可以包括:接收由第二玩家对所述视频游戏中的角色的选择以在所述视频游戏的实例中表现得好像所述角色在所述第一玩家的控制下;以及响应于所述选择,导致所述角色执行由与所述第一玩家相关联的所述定制模型确定的在所述视频游戏的所述实例内的动作。在一些实施方案中,一种非暂时性计算机可读存储介质可以具有存储在其上的计算机可读指令,当所述计算机可读指令被执行时,所述计算机可读指令配置计算系统以执行操作。所述操作可以包括:获得通用玩家行为模型,其中所述通本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n数据存储器,所述数据存储器存储与一个或多个视频游戏相关联的通用玩家行为模型,其中所述通用玩家行为模型被配置为提供待在多个玩游戏情形中的每个中执行的游戏中动作的指示;以及/n计算系统,所述计算系统与所述数据存储器电子通信并且被配置为执行计算机可读指令,所述计算机可读指令将所述计算系统配置为:/n从所述数据存储器检索所述通用玩家行为模型,其中在检索之前已经基于一个或多个玩家的玩游戏数据而与第一玩家的玩游戏数据无关地训练了所述通用玩家行为模型,其中所述通用玩家行为模型是包括多个层的机器学习模型;/n获得所述第一玩家的玩游戏数据,其中该玩游戏数据标识在视频游戏中的多个游戏状态中的每个游戏状态下由所述第一玩家执行的游戏中动作;/n将所述通用玩家行为模型中的所述多个层的至少一个子集指定为待在与所述第一玩家相关联的定制模型中使用的冻结层;/n基于所述第一玩家的所述玩游戏数据生成用于所述定制模型的一个或多个定制层,其中所述一个或多个定制层至少部分地依赖于所述通用玩家行为模型的所述冻结层,以预测在至少一个或多个游戏状态下将由所述第一玩家执行的游戏中动作;以及/n存储与所述第一玩家相关联的经训练的定制模型,其中所述经训练的定制模型包括所述一个或多个定制层并且还包括或依赖于所述通用玩家行为模型的所述冻结层,其中所述经训练的定制模型被配置为接收关于所述视频游戏的游戏状态的数据作为输入并且输出待在所述视频游戏中执行的自动化动作。/n...

【技术特征摘要】
20190702 US 16/460,8711.一种系统,包括:
数据存储器,所述数据存储器存储与一个或多个视频游戏相关联的通用玩家行为模型,其中所述通用玩家行为模型被配置为提供待在多个玩游戏情形中的每个中执行的游戏中动作的指示;以及
计算系统,所述计算系统与所述数据存储器电子通信并且被配置为执行计算机可读指令,所述计算机可读指令将所述计算系统配置为:
从所述数据存储器检索所述通用玩家行为模型,其中在检索之前已经基于一个或多个玩家的玩游戏数据而与第一玩家的玩游戏数据无关地训练了所述通用玩家行为模型,其中所述通用玩家行为模型是包括多个层的机器学习模型;
获得所述第一玩家的玩游戏数据,其中该玩游戏数据标识在视频游戏中的多个游戏状态中的每个游戏状态下由所述第一玩家执行的游戏中动作;
将所述通用玩家行为模型中的所述多个层的至少一个子集指定为待在与所述第一玩家相关联的定制模型中使用的冻结层;
基于所述第一玩家的所述玩游戏数据生成用于所述定制模型的一个或多个定制层,其中所述一个或多个定制层至少部分地依赖于所述通用玩家行为模型的所述冻结层,以预测在至少一个或多个游戏状态下将由所述第一玩家执行的游戏中动作;以及
存储与所述第一玩家相关联的经训练的定制模型,其中所述经训练的定制模型包括所述一个或多个定制层并且还包括或依赖于所述通用玩家行为模型的所述冻结层,其中所述经训练的定制模型被配置为接收关于所述视频游戏的游戏状态的数据作为输入并且输出待在所述视频游戏中执行的自动化动作。


2.根据权利要求1所述的系统,其中所述计算系统是视频游戏控制台系统、移动电话、平板设备或个人计算机中之一。


3.根据权利要求2所述的系统,其中所述计算系统具有足够的处理能力来训练所述一个或多个定制层,但是处理能力不足以充分训练具有所述通用玩家行为模型的复杂性级别的模型。


4.根据权利要求1所述的系统,其中当被提供有未出现在所述第一玩家的所述玩游戏数据中的输入游戏状态时,在所述经训练的定制模型中使用所述冻结层使得所述经训练的定制模型能够确定待输出的自动化动作。


5.根据权利要求1所述的系统,其中所述通用玩家行为模型是第一深度神经网络,其中所述经训练的定制模型是包括比所述第一深度神经网络更多的层的第二深度神经网络。


6.根据权利要求5所述的系统,其中所述第二深度神经网络中的大多数层是来自所述第一深度神经网络的冻结层,并且其中所述一个或多个定制层包括与所述第一深度神经网络的原始输出层不同的新的输出层。


7.根据权利要求1所述的系统,其中所述计算系统还被配置为至少将与所述第一玩家相关联的所述定制模型的所述一个或多个定制层提供给第二玩家的第二计算系统,以使在所述第二计算系统上操作的游戏应用程序模仿所述第一玩家的玩游戏。


8.一种计算机实施的方法,包括:
在包括计算机硬件的计算机系统的控制下,所述计算机系统被配置有计算机可执行指令,所述计算机可执行指令:
获得通用玩家行为模型,其中基于视频游戏的多个玩家的玩游戏数据训练所述通用玩家行为模型,其中所述通用玩家行为模型被配置为提供待在多个玩游戏情形中的每个中执行的游戏中动作的指示;
获得第一玩家的玩游戏数据,其中所述玩游戏数据标识在所述视频游戏中的多个游戏状态中的每个游戏状态下由所述第一玩家执行的游戏中动作,其中所述第一玩家不是与所述通用玩家行为模型的训练相关联的所述多个玩家中的一个;
将所述通用玩家行为模型的多个部分并入与所述第一玩家相关联的定制模型,其中所述多个部分每个包括所述通用玩家行为模型中的一个层或层次;
基于所述第一玩家的所述玩游戏数据生成用于所述定制模型的一个或多个定制部分,其中生成所述一个或多个定制部分包括训练所述定制模型以预测在特定游戏状态下将由所述第一玩家执行的游戏中动作,其中所述训练包括反复地更新所述一个或多个定制部分,而不改变并入所述定制模型的所述通用玩家行为模型的所述多个部分;以及
将所述训练之后的所述定制模型存储为与所述第一玩家相关联的经训练的定制模型,其中所述经训练的定制模型包括所述一个或多个定制部分并且还包括或依赖于所述通用玩家行为模型的所述多个部分,其中所述经训练的定制模型被配置为接收关于所述视频游戏的游戏状态的数据作为输入并且输出待在所述视频游戏中执行的自动化动作。


9....

【专利技术属性】
技术研发人员:C·萨默斯J·鲁珀特I·保罗维科夫A·贝拉米Y·赵M·萨尔达里H·H·查普特N·阿格戴尔K·AU·扎曼
申请(专利权)人:电子技术公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1