System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于利用课程和技能来训练人工智能代理的方法技术_技高网

用于利用课程和技能来训练人工智能代理的方法技术

技术编号:40663221 阅读:6 留言:0更新日期:2024-03-18 18:56
用于训练代理的方法使用被设计为教导在更大领域中有帮助的特定技能的场景的混合,诸如混合通用比赛和非常特定的战术比赛场景。方法的各方面可以包括以下的一个或多个:(1)通过使一个或多个汽车分散在赛道上,将代理训练为非常擅长于计时赛;(2)在具有可变数量的对手、在赛道周围按照不同配置开始的各种比赛场景中运行代理;(3)通过使用游戏提供的代理、根据本发明专利技术的各方面训练的代理或被控制以遵循特定行驶路线的代理来改变对手;(4)利用特定成功准则在各种比赛情况下设置具有对手的特定短场景;以及(5)基于代理在各种评估场景中表现如何,具有动态课程。

【技术实现步骤摘要】
【国外来华专利技术】

1.本专利技术的实施例总体上涉及训练人工智能代理。更具体地,本专利技术涉及用于利用通用游戏玩法和将游戏代理放置在特定场景中来训练游戏代理的方法。甚至更具体地,本专利技术的各方面可以使用混合场景训练,以用于可配置环境中的强化学习,诸如赛车(racing)游戏代理。2.现有技术和相关信息的描述下面的背景信息可以呈现现有技术的特定方面的示例(例如但不限于方法、事实或常识),尽管期望现有技术有助于关于现有技术的附加方面进一步教育阅读者,但是现有技术不应该被解释为将本专利技术或其任何实施例限于其中陈述或暗示的任何内容、或者基于其推断的任何内容。参考图1,强化学习(rl)代理100是一种形式的人工智能,rl代理100通过与其环境102的交互来进行训练(也被称为“学习”)。在代理的训练的每个时间步骤,它被提供有对它的当前状态的观察104。代理100随后采取动作106,该动作106将它转变为新状态并且生成奖励项。各种已有rl算法和模型108提供用于最终找到最佳策略110(从状态到动作的映射)的例程,该最佳策略110将会使奖励项的某个函数(诸如,期望总和)最大化。在简单的领域中,rl代理被期望能够基于其自己的动作而体验所有可能的状态。然而,在复杂的问题(诸如,学习在交通中驾驶自主车辆甚至使自主车辆比赛)中,学习代理将会遇到许多挑战,该学习代理需要来自信息学习场景(诸如,在两辆汽车之间驾驶)的数据。例如,如果环境足够大,则由学习代理进行的随机甚至有目标的探索将会具有太多的区域要探索,从而可能错过重要的场景。另外,强化学习代理在其规划中几乎总是具有有限的范围(或有效的有限范围),因此即使它们识别出它们想要访问的场景,它们也可能无法执行计划以达到该场景。如果代理需要两辆汽车之间的数据但是汽车离得很远,则它可能没有可靠的方式来达到它们。此外,当其它代理共享环境时,它们可能不会采取导致学习代理所需要的经验的动作。例如,如果自主驾驶系统是赛车模拟器,则两辆汽车将不会减速以使学习代理在它们之间。即使学习代理设法体验比如在两辆汽车之间驾驶的场景,达到该场景所需要的经验的量也将会可能远大于场景中的经验,从而使其对训练的影响最小化。另外,复杂的环境经常伴随有关于什么场景将会有助于学习的来自人类经验的强大先验知识。例如,驾驶教练可以可能规定将会帮助代理学习的许多场景。但是,在基本强化学习公式中,没有对这些已知学习场景的编码。为了在这样的复杂领域中有效地学习而又不能简单地运行代理来进行大量的步骤,这些问题需要得到解决。这样的复杂环境的示例是模拟汽车比赛,在这样的复杂环境中,代理需要多种技能以便能成功。为了熟练控制赛车,驾驶员需要详细了解他们的车辆的动力学和他们赛车的赛道的特性。驾驶员在这种基础上建立有超过对手和防御对手所需要的战术技能,从而以高速执行精确机动,几乎没有失误的余地。


技术介绍


技术实现思路

1、本专利技术的实施例提供了一种利用混合场景训练来训练强化学习代理的方法,包括:在具有一个或多个预定场景属性的环境中提供推出工作者(rollout worker);在专注于一个或多个特定技能的同时,在所述环境中操作所述推出工作者;对于成功地实现所述一个或多个特定技能提供奖励;以及为所述推出工作者创建用于优化奖励的策略。

2、本专利技术的实施例还提供了一种使用混合场景训练的深度强化学习架构,包括:一组推出工作者;训练器;以及一组场景属性,其中,所述训练器改进用于确定环境中的推出工作者的动作的模型和策略;所述推出工作者基于从场景属性中取得的预定启动条件而在环境中操作;以及来自在具有所述预定启动条件的环境中操作的推出工作者的数据被收集,并且存储在所述训练器的经验回放缓冲器中。

3、本专利技术的实施例还提供了一种利用深度强化学习来训练代理以在赛车视频游戏中进行交互的方法,包括:学习策略,所述策略基于由所述代理进行的观察并且基于价值函数来选择动作,所述价值函数估计对于每个可能动作的未来奖励;将所述代理的核心动作映射到改变速率维度和转向维度中的任一个,其中,所述改变速率维度和转向维度两者都是连续值维度;以及在具有预定义场景属性的环境中训练所述代理,其中,所述预定义场景属性包括启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。

4、在一些实施例中,所述方法还包括:向所述代理提供关于自身和每个对手的位置、速率和加速度状态信息;以及向所述代理提供赛道的地图作为定义其左边缘和右边缘以及中心线的点的列表。

5、在一些实施例中,所述方法还包括:在具有可变数量的对手并且在赛道周围按照不同配置开始的比赛场景中训练代理;以及训练所述代理对抗对手,所述对手是从游戏提供的人工代理、利用变化的奖励函数训练的其它代理和由控制器控制的遵循特定形势路线的代理中选择的。

6、参考下面的附图、描述和权利要求,本专利技术的这些和其它特征、方面和优点将会变得更好理解。

本文档来自技高网...

【技术保护点】

1.一种利用混合场景训练来训练强化学习代理的方法,包括:

2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。

3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。

4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。

5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加的推出工作者。

6.如权利要求5所述的方法,其中,随机地选择所述一组预定场景属性。

7.如权利要求5所述的方法,其中,基于场景加权来选择所述一组预定场景属性。

8.如权利要求5所述的方法,其中,根据由先前环境中的先前推出工作者遇到的事件来自动地创建所述一组预定场景属性。

9.如权利要求1所述的方法,还包括:提供在环境中表现良好的对手分布的场景属性。</p>

10.如权利要求1所述的方法,其中,所述场景属性包括复制数量,所述复制数量定义在环境中操作的并行推出工作者的数量。

11.如权利要求1所述的方法,其中,所述场景属性包括停止条件。

12.如权利要求11所述的方法,其中,所述停止条件被确定为生成专注于特定技能实现的环境。

13.如权利要求11所述的方法,其中,所述停止条件是开放式的,从而使所述推出工作者专注于实现通用技术。

14.一种使用混合场景训练的深度强化学习架构,包括:

15.如权利要求14所述的深度强化学习架构,其中,所述训练器通过对来自所述经验回放缓冲器的一批数据进行采样来执行策略改进,所述经验回放缓冲器已填充有来自具有各种启动条件的环境中的所述一组推出工作者的操作的数据。

16.如权利要求15所述的深度强化学习架构,其中,所述经验回放缓冲器包括用于分割数据的表。

17.如权利要求16所述的深度强化学习架构,其中,所述一批数据包括来自表中的多个表的数据,其中,向每个表提供预定表权重。

18.如权利要求14所述的深度强化学习架构,其中,所述训练器包括任务管理器模块,所述任务管理器模块用于确定哪些场景属性应该由所述一组推出工作者中的空闲推出工作者来使用。

19.如权利要求14所述的深度强化学习架构,其中,所述经验回放缓冲器中的数据包括每个推出工作者的状态、动作和奖励。

20.一种利用深度强化学习来训练代理以在赛车视频游戏中进行交互的方法,包括:

...

【技术特征摘要】
【国外来华专利技术】

1.一种利用混合场景训练来训练强化学习代理的方法,包括:

2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。

3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。

4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。

5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加的推出工作者。

6.如权利要求5所述的方法,其中,随机地选择所述一组预定场景属性。

7.如权利要求5所述的方法,其中,基于场景加权来选择所述一组预定场景属性。

8.如权利要求5所述的方法,其中,根据由先前环境中的先前推出工作者遇到的事件来自动地创建所述一组预定场景属性。

9.如权利要求1所述的方法,还包括:提供在环境中表现良好的对手分布的场景属性。

10.如权利要求1所述的方法,其中,所述场景属性包括复制数量,所述复制数量定义在环境中操作的并行推出工作者的数量。

11.如权利要求1所述的方法,其中,所...

【专利技术属性】
技术研发人员:T·J·沃尔什V·科佩拉S·巴雷特M·D·托缪尔P·马卡尔平P·沃尔曼
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1