智能体控制模型训练方法、计算机设备及存储介质技术

技术编号:39178194 阅读:8 留言:0更新日期:2023-10-27 08:26
本申请涉及人工智能领域,提供一种智能体控制模型训练方法、计算机设备及存储介质,方法包括:获取虚拟环境中的关键位置信息,以及不同对抗道具的位置偏好信息;根据关键位置信息和位置偏好信息,确定不同对抗道具的关键位置数据库;根据当前位置、当前对抗道具及关键位置数据库确定智能体在虚拟环境中目标行动位置;基于预设模型控制智能体移动至目标行动位置,并在目标行动位置与虚拟环境进行交互,得到交互反馈信息;根据交互反馈信息,对预设模型的模型参数进行调整,直至得到目标模型。使智能体能够根据持有的对抗道具的区别,确定不同的关键位置数据库,并且基于不同的关键位置数据库以不同的风格与虚拟环境进行交互,提高智能体的灵活性。高智能体的灵活性。高智能体的灵活性。

【技术实现步骤摘要】
智能体控制模型训练方法、计算机设备及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种智能体控制模型训练方法、计算机设备及存储介质。

技术介绍

[0002]随着人工智能的发展,在计算机游戏中由人工智能进行角色托管、游戏指导、游戏测试、非玩家角色(Non-Player Character,NPC)控制等场景也越来越普遍。然而,现有的对游戏中的智能体控制模型进行训练的方法作战策略较为单一,拟人性和灵活性较差,难以因地制宜地根据实际情况与真人玩家进行合作或对抗。因此,如何训练智能体控制模型以提高智能体的拟人性和灵活性成为了亟需解决的问题。

技术实现思路

[0003]本申请的主要目的在于提供一种智能体控制模型训练方法、计算机设备及存储介质,旨在提高智能体控制的拟人性和灵活性。
[0004]第一方面,本申请提供一种智能体控制模型训练方法,所述智能体控制模型训练方法包括以下步骤:
[0005]获取虚拟环境中的关键位置信息,以及不同对抗道具的位置偏好信息,不同的所述对抗道具对应的道具属性不同,并且不同的道具属性在所述虚拟环境中适配的关键位置不同;
[0006]根据所述关键位置信息和所述位置偏好信息,确定不同对抗道具对应的关键位置数据库;
[0007]获取所述智能体在所述虚拟环境中的当前位置及当前对抗道具,并根据所述当前位置、当前对抗道具及所述关键位置数据库确定所述智能体在所述虚拟环境中下一时刻的目标行动位置;
[0008]基于预设模型控制所述智能体从所述当前位置移动至所述目标行动位置,并在所述目标行动位置与所述虚拟环境进行交互,得到交互反馈信息;
[0009]根据所述交互反馈信息,对所述预设模型的模型参数进行调整,直至得到目标模型。
[0010]第二方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的智能体控制模型训练方法。
[0011]第三方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的智能体控制模型训练方法。
[0012]本申请提供一种智能体控制模型训练方法、设备及计算机存储介质,本申请通过获取虚拟环境中的关键位置信息,以及不同对抗道具的位置偏好信息,不同的所述对抗道
具对应的道具属性不同,并且不同的道具属性在所述虚拟环境中适配的关键位置不同;根据所述关键位置信息和所述位置偏好信息,确定不同对抗道具对应的关键位置数据库;获取所述智能体在所述虚拟环境中的当前位置及当前对抗道具,并根据所述当前位置、当前对抗道具及所述关键位置数据库确定所述智能体在所述虚拟环境中下一时刻的目标行动位置;基于预设模型控制所述智能体从所述当前位置移动至所述目标行动位置,并在所述目标行动位置与所述虚拟环境进行交互,得到交互反馈信息;根据所述交互反馈信息,对所述预设模型的模型参数进行调整,直至得到目标模型。由于智能体能够根据持有的对抗道具的区别,确定不同的关键位置数据库,并且基于不同的关键位置数据库以不同的风格与虚拟环境进行交互,提高了智能体的拟人性和灵活性。
附图说明
[0013]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本申请一实施例提供的一种智能体控制模型训练方法的流程示意图;
[0015]图2为本申请一实施例提供的一种智能体控制模型训练方法的子步骤的流程示意图;
[0016]图3为本申请一实施例提供的一种智能体控制模型训练方法的子步骤的流程示意图;
[0017]图4为本申请一实施例提供的一种智能体控制模型训练方法的子步骤的流程示意图;
[0018]图5为本申请一实施例涉及的计算机设备的结构示意框图。
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0021]本申请实施例提供一种智能体控制模型训练方法、计算机设备及计算机可读存储介质。
[0022]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0023]请参照图1,图1为本申请的实施例提供的一种智能体控制模型训练方法的流程示意图。该智能体控制模型训练方法可以用于终端或服务器中,以实现对智能体控制模型进行训练。其中,终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;服务器可以为独立的服务器,也可以为服务器集群,也可以是提供云服
务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0024]相关技术中,将智能体控制模型以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器,能够将智能体有效地应用于游戏中的掉线托管、人机对战、人机合作等多种场景。
[0025]示例性的,游戏中的智能体可能持有多种风格迥异的对抗道具,以枪战游戏为例,游戏中的智能体可能持有狙击枪、自动步枪、冲锋枪、霰弹枪中的一种或多种。由于不同的对抗道具具有不同的特点,举例而言,狙击枪、自动步枪、冲锋枪、霰弹枪的有效射程依次递减,一般而言,对于其中射程较近的对抗道具,需要选择具有较为密集的掩体的作战位置,便于通过在掩体之间转移进而接近攻击目标;而对于其中射程较远的对抗道具,需要选择视野较为开阔的作战位置,便于发现敌方角色以及发动远距离攻击。因此,不同的对抗道具在游戏中的作战策略也存在区别,而现有的智能体控制模型无法根据对抗道具差异性地控制智能体进行作战,造成智能体的拟人性和灵活性较差。
[0026]如图1所示,该智能体控制模型训练方法包括步骤S101至步骤S105。
[0027]步骤S101、获取虚拟环境中的关键位置信息,以及不同对抗道具的位置偏好信息,不同的所述对抗道具对应的道具属性不同,并且不同的道具属性在所述虚拟环境中适配的关键位置不同。
[0028]示例性的,智能体在虚拟环境中的行为,实际上是智能体从当前位置前往下一时刻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体控制模型训练方法,其特征在于,所述方法包括:获取虚拟环境中的关键位置信息,以及不同对抗道具的位置偏好信息,不同的所述对抗道具对应的道具属性不同,并且不同的道具属性在所述虚拟环境中适配的关键位置不同;根据所述关键位置信息和所述位置偏好信息,确定不同对抗道具对应的关键位置数据库;获取所述智能体在所述虚拟环境中的当前位置及当前对抗道具,并根据所述当前位置、当前对抗道具及所述关键位置数据库确定所述智能体在所述虚拟环境中下一时刻的目标行动位置;基于预设模型控制所述智能体从所述当前位置移动至所述目标行动位置,并在所述目标行动位置与所述虚拟环境进行交互,得到交互反馈信息;根据所述交互反馈信息,对所述预设模型的模型参数进行调整,直至得到目标模型。2.根据权利要求1所述的智能体控制模型训练方法,其特征在于,所述基于预设模型控制所述智能体从所述当前位置移动至所述目标行动位置,并在所述目标行动位置与所述虚拟环境进行交互,得到交互反馈信息,包括:基于所述预设模型,控制所述智能体在所述目标行动位置与所述虚拟环境以及所述虚拟环境中的虚拟角色进行交互,获取所述交互反馈信息。3.根据权利要求2所述的智能体控制模型训练方法,其特征在于,所述方法还包括:在所述虚拟环境中的随机位置,设置用于与所述智能体进行交互的至少一个虚拟角色,所述虚拟角色分别具有至少一种对抗道具。4.根据权利要求2所述的智能体控制模型训练方法,其特征在于,所述基于预设模型控制所述智能体从所述当前位置移动至所述目标行动位置,并在所述目标行动位置与所述虚拟环境进行交互,得到交互反馈信息,包括:获取所述虚拟角色的角色类型,以及所述虚拟角色持有的对抗道具,根据所述角色类型和所述对抗道具,基于所述预设模型控制所述智能体;其中,所述角色类型至少包括:友方角色、敌方角色。5.根据权利要求1所述的智能体控制模型训练方法,其特征在于,所述关键位置信息包括:关键位置坐标、至少一项位置评价数值;所述位置偏好信息包括:至少一项所述位置评价数值对应的评价偏好权重;所述根据所述关键位置信息和所述位置偏好信息,确定不同对抗道具对应的关键位置数据库,包括:根据至少一项所述位置评价数值,以及至少一项所述位置评价数值对应的评价偏好权重,确定所述关键位置坐标针对不同对抗道具的标准化位置评分;根据所述关键位置坐标针对不同对抗道具的标准化位置评分,确定不同对抗道具对应的关键位置...

【专利技术属性】
技术研发人员:张黎王善意梁敏明邓志弘郭仁杰杨木
申请(专利权)人:深圳海普参数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1