System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的多智能体在三维场景中的群集控制方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>梧州学院专利>正文

一种基于深度强化学习的多智能体在三维场景中的群集控制方法及系统技术方案

技术编号:41367230 阅读:8 留言:0更新日期:2024-05-20 10:14
本发明专利技术公开了一种基于深度强化学习的多智能体在三维场景中的群集控制方法及系统,包括以下步骤:使用基于离散动作空间的方法对智能体的行为进行控制;采用场景遍历Tag获取目标的方法寻找目标,根据距离判定最近的目标并进行目标的赋予;创建一个遍历方法,智能体通过遍历方法遍历队友列表,将最近的目标及其位置信息传递给每个队友,并创建一个接收方法接收所述遍历方法传递的目标的位置信息;创建障碍物,智能体通过调用函数获取自身位置和障碍物位置之间的距离;对智能体的攻击与防御行为进行训练,制作点阵图,并基于点阵图生成角色创建阵型;基于阵型控制所述角色进行移动。本发明专利技术达到降低阵型变换时的计算量以及增强编队可塑性的目的。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及一种基于深度强化学习的多智能体在三维场景中的群集控制方法及系统


技术介绍

1、随着科技的不断发展,人类不仅仅希望工具可以帮助其提高效率,而且能够模拟人类的思维进行自主学习,从而可以不在人为干预下解决问题。人工智能自诞生发展到现在,理论和技术不断发展并且日趋成熟,应用范围也不断扩大,其中包括图像识别、机器人、自然语言处理以及计算机游戏。可以想象,人工智能在未来会为人类的生活提供更多的便捷。

2、计算机游戏不仅包括数学、物理、渲染等工业方面的技术,而且还需要剧情创作、艺术创作以及音乐和声音特效等技术。因此计算机游戏是一项综合性的复杂产业。随着计算机技术的不断发展,游戏在画面表现力上得到了巨大的提升。同时,为了使游戏更加有趣味性以及游戏中的角色更符合对应现实中角色的行为,计算机游戏中的人工智能逐渐成为人工智能的主要研究领域之一。在早期的游戏中,开发人员为了让游戏角色表现出一定的智能性,会为不同类型的游戏设计一些简单但执行性能高效的技术,如目标追逐与躲避、智能寻路以及序列化的脚本动作。然而,这一阶段的游戏角色行为往往局限于开发人员定义的行为,具有固定性,玩家在经过一段时间的游戏体验后,很可能会发现其中的规律。但是,由于这类方法易于开发和调试以及执行效率高,到目前仍有很多游戏采用这种技术应用到游戏角色中去。

3、在计算机硬件、3d图形渲染、虚拟现实技术以及音频音效的支持下,计算机游戏衍生许多类型不同的游戏,包括战争策略、动作射击、角色扮演、经营模拟等。随着游戏环境质量的提高和游戏类型的增多,早期简单确定的基于脚本化的人工智能远远不能满足现代游戏的需要。不同类型的游戏需要的人工智能理论和技术也不相同,例如棋牌类游戏需要人工智能中的博弈理论,而战争类型需要游戏角色的协作智能等。游戏需要为此提供更加真实可信的人工智能。因此,游戏开发需要完整的人工智能模型,使得游戏角色具有完整的智能行为,游戏角色能够感知并接收外部环境的某些信息,根据外部环境的状态和信息以及自身的状态做出符合人类思维的行为。具有“自主学习”的游戏角色,称之为智能体。

4、人工智能在理论学术方面有着巨大的发展,学术上的人工智能对于智能体的定义是,能够感知环境做出决策,然后做出相应行为来获取最大化利益的系统。一般来说,学术上的人工智能研究不存在计算机硬件和计算时间方面的限制,其主要目的是在于模拟人类的思维和决策。然而,游戏人工智能需要考虑到游戏是一种对即时性要求非常高的系统,需要在一定时间内完成对游戏角色在人工智能方面的处理。但是随着计算机硬件的提升以及gpu的出现,将cpu从需要巨大计算量的图形渲染中解放出来,使得将传统理论上的人工智能应用到游戏这一实时系统中成为可能。

5、目前应用在游戏中的理论人工智能包括:基于范例推理、产生式系统、规划系统、专家系统、多智能体系统、遗传算法、人工神经网络、群聚技术、模糊逻辑和一阶逻辑等技术已经被用于一些对智能要求较高游戏中。

6、综上所述,计算机游戏特别是即时战略游戏能够提供复杂且逼真的环境,为研究理论上的人工智能并将其用于实际场景中提供了良好的平台。因此,基于游戏的人工智能不仅能够提升游戏的质量,更重要的是将人工智能从理论转换成可用于现实生活中的重要技术,计算机游戏是具有广阔前景的人工智能研究平台。由此可见,研究即时战略游戏的人工智能是非常有必要的。

7、目前在战略游戏中,多智能体在三维场景中的编队控制,是通过矩阵进行阵型设置,生成的对象仅跟随阵型的中心点移动,该方法在进行阵型变换时需要对矩阵进行大量的计算,同时对象限制于阵型中,编队的可塑性低。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供一种基于深度强化学习的多智能体在三维场景中的群集控制方法及系统,用于解决现有多智能体在三维场景中的编队控制方法,进行阵型变换时需要进行大量的计算以及编队可塑性低的技术问题,从而达到降低阵型变换时的计算量以及增强编队可塑性的目的。

2、为解决上述问题,本专利技术所采用的技术方案如下:

3、一种基于深度强化学习的多智能体在三维场景中的群集控制方法,包括以下步骤:

4、使用基于离散动作空间的方法对智能体的行为进行控制;

5、采用场景遍历tag获取目标的方法寻找目标,根据距离判定最近的目标并进行目标的赋予;

6、创建一个遍历方法,所述智能体通过所述遍历方法遍历队友列表,将最近的目标及其位置信息传递给每个队友,并创建一个接收方法接收所述遍历方法传递的目标的位置信息;

7、创建障碍物,所述智能体通过调用函数获取自身位置和障碍物位置之间的距离;

8、对所述智能体的攻击与防御行为进行训练,制作点阵图,并基于所述点阵图生成角色创建阵型;

9、基于所述阵型控制所述角色进行移动。

10、作为本专利技术优选的实施方式,在使用基于离散动作空间的方法对智能体的行为进行控制时,包括:

11、根据ml-agents语法创建actions.discreteaction[]数组;

12、通过behavior parameters组件设置所述actions.discreteaction[]数组中值的范围,并将所述actions.discreteaction[]数组中的值随机输出,分别赋给move、rotate、attack和attdef四个变量,以表示所述智能体在不同方面的行为决策;

13、根据move的值,确定所述智能体在x轴和z轴上的移动行为,并通过设置所述智能体的位置改变量,决定施加给所述智能体的移动力的方向;

14、根据rotate的值,确定所述智能体围绕y轴的旋转行为,并通过设置智能体的旋转改变量,决定所述智能体围绕y轴旋转的方向;

15、根据attack和attdef的值,确定所述智能体是否进行攻击或者防御行为;

16、根据ismove的值,判断智能体是否进行移动。

17、作为本专利技术优选的实施方式,在判定最近的目标并进行目标的赋予时,包括:

18、创建findclosestenemy()方法,根据所述智能体的位置与敌人的位置之间的距离,找到最近的敌人;

19、将所述最近的敌人赋值给所述智能体的target属性,通过ml-agents中射线传感器组件,模拟所述智能体的视角,并设置需要观测的对象tag,以获取环境的数据;

20、其中,在所述findclosestenemy()方法中,所述智能体通过gameobject.findwithtag("enemy")来查找所有带有标签"enemy"的物体,遍历所有找到的敌人,并获取所述智能体与敌人之间的距离,根据距离的平方差,确定最近的敌人,并将其赋值给target;

21、设定一个距离目标点一定单位距离的范围,当所述智能体处于这个范围内时,给予正向奖励分数,以使所述智能体倾向于靠近所述目本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在使用基于离散动作空间的方法对智能体的行为进行控制时,包括:

3.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在判定最近的目标并进行目标的赋予时,包括:

4.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在创建接收方法进行接收时,包括:

5.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在创建障碍物时,包括:

6.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在通过调用函数获取自身位置和障碍物位置之间的距离时,包括:

7.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在对所述智能体的攻击与防御行为进行训练时,包括:

8.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在基于所述点阵图生成角色创建阵型时,包括:

9.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在基于所述阵型控制所述角色进行移动时,包括:

10.一种基于深度强化学习的多智能体在三维场景中的群集控制系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在使用基于离散动作空间的方法对智能体的行为进行控制时,包括:

3.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在判定最近的目标并进行目标的赋予时,包括:

4.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在创建接收方法进行接收时,包括:

5.根据权利要求1所述的基于深度强化学习的多智能体在三维场景中的群集控制方法,其特征在于,在创建障碍物时,包括:

6.根据...

【专利技术属性】
技术研发人员:郭慧贺杰陈子聪
申请(专利权)人:梧州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1