一种对抗竞技游戏中制造技术

技术编号:39829533 阅读:3 留言:0更新日期:2023-12-29 16:06
本发明专利技术公开了一种对抗竞技游戏中

【技术实现步骤摘要】
一种对抗竞技游戏中AI智能体行为多样性的控制方法


[0001]本专利技术涉及游戏
,特别是一种对抗竞技游戏中
AI
智能体行为多样性的控制方法


技术介绍

[0002]随着在线电子游戏的发展,玩家对游戏
AI
也产生多种需求,如闲时匹配

人机陪玩

新手引导等

近年强化学习由于其在设计难度

强度上相对传统行为树

状态机及监督学习模型的优势,在在线对抗竞技游戏中得到更多重视

[0003]在对抗竞技游戏中,玩家行为模式的多样性通常被反应为具体的不同策略,如足球类游戏的传控

防守反击

全场压迫打法,或篮球的围绕中锋的打法

快节奏三分射手群打法等

现有为了达成智能体行为模式的多样性普遍方式是基于种群的训练通过同时训练多个智能体,并通过最大化互信息与最大化动作分布差异的约束让不同智能体达到不同行为模式

但基于种群的训练需要训练多个智能体,要求较高的计算成本,而且在相同奖励函数及观察值设定下,不同智能体也可能会收敛到相似的行为模式,无法可控的达成具体的多样性行为模式


技术实现思路

[0004]本专利技术的目的在于克服现有技术的缺点,提供一种对抗竞技游戏中
AI
智能体行为多样性的控制方法

[0005]本专利技术的目的通过以下技术方案来实现:一种对抗竞技游戏中
AI
智能体行为多样性的控制方法,包括以下步骤:
[0006]S1
:对游戏目标多样性行为模式进行抽象,转换为奖励函数;
[0007]S2
:对多样性行为模式进行
OneHot
编码,与现有观察值串联;
[0008]S3
:与强化学习主干网络平行构建多样性网络,将串联后观察值输入多样性网络,多样性网络输出
D
a
与主干网络输出
D
v
求和作为网络编码
D
t

[0009]优选的,步骤
S3
中,强化学习主干网络包括主网络
W
v
和旁路多样性网络
W
a
,原观察值输入主网络
W
v
,多样性策略编码与原观察值串联之后输入旁路多样性网络
W
a

[0010]优选的,多样性网络输出
D
a
与主干网络输出
D
v
维度相同

[0011]优选的,步骤
S3
中,对于值网络,网络编码
D
t
输出为长度为
T
的向量
O
v
,将
OneHot
编码作为掩码与
O
v
求内积得到最终值网络输出;对于策略网络,网络编码
D
t
输入策略头,输出为离散或连续的策略输出,公式为:
[0012][0013]本专利技术具有以下优点:本专利技术通过将主干网络与多样性网络分离设置,有效降低了多样性行为模式训练时的计算消耗,同时通过多样性网络与主干网络解耦,避免对不同
多样性行为模式都需要进行单独训练

附图说明
[0014]图1为
AI
智能体行为多样性控制方法流程的结构示意图;
[0015]图2为
AI
智能体行为多样性控制方法的结构示意图

具体实施方式
[0016]为使本专利技术实施方式的目的

技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚

完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式

通常在此处附图中描述和示出的本专利技术实施方式的组件可以以各种不同的配置来布置和设计

[0017]因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式

基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围

[0018]需要说明的是,在不冲突的情况下,本专利技术中的实施方式及实施方式中的特征可以相互组合

[0019]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释

[0020]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位

以特定的方位构造和操作,因此不能理解为对本专利技术的限制

此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性

[0021]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通

对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义

[0022]在本实施例中,如图1和图2所示,一种对抗竞技游戏中
AI
智能体行为多样性的控制方法,包括以下步骤:
[0023]S1
:对游戏目标多样性行为模式进行抽象,转换为奖励函数;具体地说,针对不同的多样性策略
t
通过现有方法转换为对应的奖励函数,使值网络用于求积的掩码与相对的奖励函数对应,从而既可以在单次前后向训练中同时采样到多个不同多样性策略的样本进行同步训练,避免不同多样性策略迭代训练时被遗忘

这里的值网络采用多头结构,通过每个头预测不同的多样性行为模式的
value
值,再通过掩码求和降低不同值设置间的耦合程度

[0024]S2
:对多样性行为模式进行
OneHot
编码,与现有观察值串联;
[0025]S3
:与强化学习主干网络平行构建多样性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种对抗竞技游戏中
AI
智能体行为多样性的控制方法,其特征在于:包括以下步骤:
S1
:对游戏目标多样性行为模式进行抽象,转换为奖励函数;
S2
:对多样性行为模式进行
OneHot
编码,与现有观察值串联;
S3
:与强化学习主干网络平行构建多样性网络,将串联后观察值输入多样性网络,多样性网络输出
D
a
与主干网络输出
D
v
求和作为网络编码
D
t
。2.
根据权利要求1所述的对抗竞技游戏中
AI
智能体行为多样性的控制方法,其特征在于:所述步骤
S3
中,强化学习主干网络包括主网络
W
v
和旁路多样性网络
W
a
,原观察值输入主网络
W
v<...

【专利技术属性】
技术研发人员:肖尚华
申请(专利权)人:成都先知者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1