一种基于强化学习的增强现实多智能体协作对抗实现方法技术

技术编号:30153186 阅读:18 留言:0更新日期:2021-09-25 15:03
本发明专利技术方法提供一种增强现实环境下多智能体对抗仿真环境实现方法,利用深度强化学习网络结合课程学习预测各个智能体行为并作出决策,再将训练完成的强化学习智能体模型迁移至增强现实环境中,能够解决增强现实对抗仿真环境中虚拟多智能体协作策略单一造成的人机交互体验不佳的问题,具有使真实用户和虚拟多智能体之间协作对抗策略灵活多变的效果。智能体之间协作对抗策略灵活多变的效果。智能体之间协作对抗策略灵活多变的效果。

【技术实现步骤摘要】
一种基于强化学习的增强现实多智能体协作对抗实现方法


[0001]本专利技术属于信息
,具体涉及一种基于强化学习的增强现实多智能体协作对抗实现方法。

技术介绍

[0002]近年来,随着人工智能(Artificial Intelligence,以下简称“AI”)相关技术的持续突破和相关算法的不断成熟,AI智能体已经逐渐深入各个领域,并且在智能机器人、无人车、虚拟现实与增强现实等领域表现出较好的应用效果。在增强现实仿真对抗环境中,良好的虚实交互体验便成了当前需要优化的重要一环,虚拟目标的智能性则是提升虚实交互体验的关键之一。而在当前的增强现实仿真对抗环境中,实现虚拟多智能体与真实用户的协作对抗交互通常是通过预先设定虚拟目标的行为规则来执行,例如常采用的状态机、行为树等行为设计,然而由于缺乏智能决策,对于预先设定所实现的合作行为极容易出现策略单一,对抗效果不佳等问题,无法起到增强现实仿真环境应有的对抗效果。
[0003]为了提升增强现实仿真对抗环境中多智能体的智能性,可以采用深度强化学习算法对该环境中的多智能体进行训练,使其自主学会智能协作策略,在增强现实仿真环境中完成同用户的虚实交互,实现智能协作对抗行为。深度强化学习是当前人工智能领域的新兴技术之一,它以强化学习为基石,利用深度学习特征提取能力优势来弥补强化学习的诸多缺陷,形成互补,实现从感知到决策的端到端自主学习策略框架。相较于传统方法所实现的多智能体行为,拥有更优良的虚实对抗交互体验,可以达到更好的协作效果。
[0004]同时为了解决深度强化学习在学习过程中需要不断试错,导致其在真实环境中训练的成本过高的问题,通常先在搭建的虚拟仿真环境中完成训练后再进行真实环境的迁移。Unity3D作为当前广泛使用的专业游戏引擎,可用于构建增强现实仿真环境。利用强化学习算法对虚拟多智能体进行训练,得到多智能体协作策略模型后迁移到增强现实环境中,提高在增强现实仿真对抗环境中多智能体的智能性,提升交互体验。该方法可用于军事仿真训练、增强现实游戏等的智能对抗仿真环境构建。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种基于强化学习的增强现实多智能体协作对抗实现方法,可以解决增强现实仿真对抗环境中多智能体行为策略单一,协作智能性不佳,所造成的虚实目标交互体验差的问题。
[0006]一种基于强化学习的增强现实多智能体协作对抗实现方法,包括如下步骤:
[0007]步骤1:在离线阶段,对真实场景进行建模,构建稠密的三维点云地图并三角网格化;
[0008]步骤2:仿照真实场景搭建虚拟仿真对抗环境对多智能体进行训练,包括如下步骤:
[0009](1)仿照真实场景,再搭建虚拟仿真对抗场景,将多个智能体设置在该虚拟仿真对
抗场景中;多个智能体分为互为对抗的两队,对抗双方均可在场景中自由移动,双方的任务目标均为团队协作配合歼灭对方装备,以此形成仿真对抗环境;
[0010](2)为对抗双方分别设置一个策略模型,同队的智能体之间共享一套策略模型参数;
[0011](3)利用三维渲染引擎Unity3D自带组件MLAgent完成对智能体的状态输入、奖励设置和动作输出;
[0012](4)智能体根据不断输入的状态输入、奖励信息及动作输出对策略模型进行循环往复训练;
[0013]步骤3:训练完成后,在线阶段导入训练完成的智能体策略模型,将步骤1构建好的真实场景模型导入三维渲染引擎,并在其中添加刚体组件;然后将装备渲染在真实场景中的相应位置,实现后续增强现实仿真对抗环境的渲染绘制;
[0014]步骤4:实时获取用户的六自由度全局位姿,并传递给三维渲染引擎中的虚拟相机;
[0015]步骤5:导入真实摄像机捕获的画面,渲染在真实场景中;
[0016]步骤6:将步骤1中构建的真实场景模型隐藏,保留刚体组件,用于碰撞检测,最终形成用户在真实场景中与智能体进行交互的增强现实仿真对抗环境,与智能体之间形成协作完成对抗任务。
[0017]进一步的,所述步骤2中,训练过程结合课程训练模式,将场景复杂度分为简单、中等、困难三个程度,在训练是按顺序采用该三个复杂度对策略模型进行训练。
[0018]较佳的,所述步骤3中,利用世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的如下转换公式,将装备渲染在真实场景中的相应位置:
[0019][0020]上式中,(ε,η,δ)是智能体在世界坐标系中的三维位置信息;T
CW
表示从世界坐标系到相机坐标系的转换;相机模型决定相机坐标系与图像坐标系的转换关系;对于透视投影模型,θ表示相机的纵向视角,n是从相机中心到近裁剪平面的距离,f是从相机中心到远裁剪平面的距离,Aspect是投影图像的长宽比,K是相机的内部参数,Z
c
和γ与深度有关。
[0021]较佳的,采用实时跟踪定位算法实时获取用户的六自由度全局位姿。
[0022]较佳的,智能体中采用python软件接收状态输入和奖励信息并训练模型。
[0023]较佳的,所述步骤1中,利用三维激光扫描仪对真实场景进行建模。
[0024]较佳的,状态输入包括:以向量形式表征的周围智能体的属性和方位以及自身相关状态信息;友方智能体的图像信息和位置信息。
[0025]本专利技术具有如下有益效果:
[0026]本专利技术方法提供一种增强现实环境下多智能体对抗仿真环境实现方法,利用深度
强化学习网络结合课程学习预测各个智能体行为并作出决策,再将训练完成的强化学习智能体模型迁移至增强现实环境中,能够解决增强现实对抗仿真环境中虚拟多智能体协作策略单一造成的人机交互体验不佳的问题,具有使真实用户和虚拟多智能体之间协作对抗策略灵活多变的效果。
附图说明
[0027]图1为本专利技术的三维激光扫描并三角网格化后得到的真实地图模型;
[0028]图2为搭建的虚拟仿真环境;
[0029]图3为本专利技术方法流程图;
[0030]图4为训练流程图;
[0031]图5为训练过程示意图;
[0032]图6为训练完成效果图;
[0033]图7为真实场景效果图。
具体实施方式
[0034]下面结合附图并举实施例,对本专利技术进行详细描述。
[0035]一种基于强化学习的增强现实多智能体协作对抗实现方法,其基本实施过程如下:
[0036]步骤1:在离线阶段,利用三维激光扫描仪对真实场景进行建模,构建稠密的三维点云地图并三角网格化。
[0037]步骤2:将构建好的模型导入三维渲染引擎,添加刚体组件以实现碰撞检测,用于后续强化学习训练。
[0038]步骤3:由于真实场景模型过大,为提升训练速度,仿照真实场景搭建虚拟仿真对抗环境对多智能体进行训练,其具体过程如下:
[0039](1)仿照真实场景,利用模型预制体搭建虚拟仿真对抗场景,将多智能体分为红蓝两队,红蓝双方均可在场景中自由移动,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的增强现实多智能体协作对抗实现方法,其特征在于,包括如下步骤:步骤1:在离线阶段,对真实场景进行建模,构建稠密的三维点云地图并三角网格化;步骤2:仿照真实场景搭建虚拟仿真对抗环境对多智能体进行训练,包括如下步骤:(1)仿照真实场景,再搭建虚拟仿真对抗场景,将多个智能体设置在该虚拟仿真对抗场景中;多个智能体分为互为对抗的两队,对抗双方均可在场景中自由移动,双方的任务目标均为团队协作配合歼灭对方装备,以此形成仿真对抗环境;(2)为对抗双方分别设置一个策略模型,同队的智能体之间共享一套策略模型参数;(3)利用三维渲染引擎Unity3D自带组件MLAgent完成对智能体的状态输入、奖励设置和动作输出;(4)智能体根据不断输入的状态输入、奖励信息及动作输出对策略模型进行循环往复训练;步骤3:训练完成后,在线阶段导入训练完成的智能体策略模型,将步骤1构建好的真实场景模型导入三维渲染引擎,并在其中添加刚体组件;然后将装备渲染在真实场景中的相应位置,实现后续增强现实仿真对抗环境的渲染绘制;步骤4:实时获取用户的六自由度全局位姿,并传递给三维渲染引擎中的虚拟相机;步骤5:导入真实摄像机捕获的画面,渲染在真实场景中;步骤6:将步骤1中构建的真实场景模型隐藏,保留刚体组件,用于碰撞检测,最终形成用户在真实场景中与智能体进行交互的增强现实仿真对抗环境,与智能体之间形成协作完成对抗任务。2.如权利要求1所述的一种基于强化学习的增强现实多智能体协作对抗实现方法,其特征在于,所述步骤2中,训练过程结合课程训练模式...

【专利技术属性】
技术研发人员:陈靖张君瑞周俊研
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1