交互式任务控制、智能决策模型训练方法、设备和介质技术

技术编号:25424230 阅读:8 留言:0更新日期:2020-08-28 22:10
本申请公开了一种交互式任务控制、智能决策模型训练方法、设备和介质,交互式任务的运行过程包括为多个子任务的执行过程,子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行;方法包括:获取团队中多个虚拟对象各自的观察变量;对团队中多个虚拟对象的观察变量进行融合处理,得到团队的全局变量数据;基于智能决策模型,根据全局变量数据确定团队中多个虚拟对象各自的动作指令;根据动作指令控制执行虚拟对象对应的子任务。使得团队中每个虚拟对象的观察变量的时间点都是一致的,做动作的时间点也是一致的,减少了团队中不同虚拟对象之间的动作延迟,防止延迟和动作不同步导致的有效配合降低等问题。

【技术实现步骤摘要】
交互式任务控制、智能决策模型训练方法、设备和介质
本申请涉及人工智能
,尤其涉及一种交互式任务控制、智能决策模型训练方法、设备和介质。
技术介绍
随着现代经济繁荣发展,电子游戏的不断进步和提升,现在已经成为人们主要的休闲娱乐方式之一。游戏中非玩家角色的行为决策是影响游戏质量和用户体验的重要因素。传统游戏人工智能的实现是通过行为树(behaviortree)来实现,根据智能体处在不同的环境和状态采取不同的策略。基于行为树的方法是根据人类对特定游戏的理解,将智能体的决策逻辑以行为树的形式进行建模,行为树中的每个节点逻辑判断都有人类手工设定,例如智能体的位置到达哪里就进行防御或者攻击,确定好整个行为树的逻辑判断之后,智能体就会按照行为树的逻辑来执行动作。然而随着游戏状态增加,环境因素越来越复杂,通过传统的行为树方式显得复杂和效率低下。近年来,随着深度学习(deeplearning)的快速发展,基于深度学习的游戏AI建模方法将数据作为驱动力,从数据中学习观察变量和动作之间的映射关系,将简单的行为树逻辑转换为复杂的函数映射,随之也取得更加好的效果。基于深度学习的建模方法中,多智能体的建模尤为复杂。多智能体的建模会将每个智能体的观察变量进行分别建模,得到每个智能体所对应的动作,然后发送给游戏内核。这样的处理方式会带来以下问题:由于每个智能体的动作进行独立的处理,不同的智能体所做的动作容易存在不同步,可能会产生信息不同步导致的失误。
技术实现思路
本申请实施例提供一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质,能够减少团队中不同虚拟对象动作之间的不同步。第一方面,本申请提供了一种交互式任务控制方法,所述交互式任务的运行过程包括为多个子任务的执行过程,所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行;所述方法包括:获取团队中多个虚拟对象各自的观察变量;对所述团队中多个虚拟对象的观察变量进行融合处理,得到所述团队的全局变量数据;基于智能决策模型,根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令;根据所述动作指令控制执行所述虚拟对象对应的子任务。第二方面,本申请提供了一种智能决策模型的训练方法,所述智能决策模型用于交互式任务的控制,所述交互式任务的运行过程包括为多个子任务的执行过程,所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行;所述方法包括:获取团队中多个虚拟对象各自的观察变量;对多个所述观察变量进行融合处理,得到所述团队的全局变量数据;基于待训练的智能决策模型,根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令;获取各所述虚拟对象根据对应的动作指令执行动作的回报数据;根据所述回报数据对所述待训练的智能决策模型训练。第三方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现前述的交互式任务控制方法。第四方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现前述的智能决策模型训练方法。第五方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述的交互式任务控制方法。第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述的智能决策模型训练方法。本申请公开了一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质,通过将团队中多个虚拟对象的观察变量进行融合处理得到团队的全局变量数据,然后将基于智能决策模型根据全局变量数据确定团队中多个虚拟对象各自的动作指令,使得每次控制虚拟对象的子任务的执行都是以团队为单位的,团队中每个虚拟对象的观察变量的时间点都是一致的,做动作的时间点也是一致的,减少了团队中不同虚拟对象之间的动作延迟,防止延迟和动作不同步导致的有效配合降低等问题。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例的交互式任务控制方法的流程示意图;图2为交互式任务控制方法的应用场景示意图;图3是目前多智能体的处理流程示意图;图4是本申请一实施例的AI服务器控制交互式任务执行的示意图;图5为本申请另一实施例的智能决策模型的训练方法的流程示意图;图6为本申请一实施例提供的一种计算机设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。本申请的实施例提供了一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参阅图1,图1是本申请的实施例提供的一种交互式任务控制方法的流程示意图。图2为一个实施例中交互式任务控制方法的应用场景示意图。参照图2,该交互式任务控制方法应用于交互式任务的控制系统。该交互式任务的控制系统包括终端110、第一服务器120和第二服务器130。终端110、第一服务器120和第二服务器130之间通过网络连接,如图2所示。用户可以通过终端110进行交互式任务。交互式任务的运行过程包括为多个子任务的执行过程,具体的,多个子任务在第一服务器120上执行,例如由游戏内核执行;所述子任务能够由用户在终端110上的操作控制执行或者由虚拟对象的操作控制执行。示例性的,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。第一服务器120可以是用于运行交互式任务的服务器,如游戏服务器,可以用独立的服务器或者是多个服务器组成的服务器集群来实现。第二服务器130可以是向第一服务器提供角色竞逐策略的AI(ArtificialIntelligence,人工智能)服务器,可以用独立的服务器或者是多个服务器组成的服务器集群来实现。此外,第一服务器120和第二服务器1本文档来自技高网...

【技术保护点】
1.一种交互式任务控制方法,其特征在于,所述交互式任务的运行过程包括为多个子任务的执行过程,所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行;所述方法包括:/n获取团队中多个虚拟对象各自的观察变量;/n对所述团队中多个虚拟对象的观察变量进行融合处理,得到所述团队的全局变量数据;/n基于智能决策模型,根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令;/n根据所述动作指令控制执行所述虚拟对象对应的子任务。/n

【技术特征摘要】
1.一种交互式任务控制方法,其特征在于,所述交互式任务的运行过程包括为多个子任务的执行过程,所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行;所述方法包括:
获取团队中多个虚拟对象各自的观察变量;
对所述团队中多个虚拟对象的观察变量进行融合处理,得到所述团队的全局变量数据;
基于智能决策模型,根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令;
根据所述动作指令控制执行所述虚拟对象对应的子任务。


2.如权利要求1所述的方法,其特征在于:所述对所述团队中多个虚拟对象的观察变量进行融合处理,得到所述团队的全局变量数据,包括:
对所述团队中多个虚拟对象的观察变量各自进行映射处理,得到所述多个虚拟对象各自的特征向量,其中,所述映射处理包括卷积处理、池化处理、全连接处理中的至少一项;
将所述多个虚拟对象的特征向量进行融合,得到所述团队的全局变量数据。


3.如权利要求2所述的方法,其特征在于:所述将所述多个虚拟对象的特征向量进行融合,得到所述团队的全局变量数据,包括:
将所述多个虚拟对象依次作为目标虚拟对象,以及将所述目标虚拟对象的特征向量和所述团队中其余虚拟对象的特征向量拼接,得到所述目标虚拟对象的目标变量数据;
将所述多个虚拟对象的目标变量数据融合,得到所述团队的全局变量数据。


4.如权利要求1-3中任一项所述的方法,其特征在于:所述基于智能决策模型,根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令,包括:
基于智能决策模型,对所述全局变量数据进行全连接处理和softmax归一化处理,得到所述团队中各所述虚拟对象对应于多个预设动作的概率;
根据各所述虚拟对象对应于多个预设动作的概率,确定各所述虚拟对象对应的动作指令。


5.如权利要求1-3中任一项所述的方法,其特征在于:所述对所述团队中多个虚...

【专利技术属性】
技术研发人员:季兴纪晓龙朱晓龙汤善敏周正李宏亮张正生刘永升
申请(专利权)人:深圳海普参数科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1