System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
1.本专利技术的实施例总体上涉及训练人工智能代理。更具体地,本专利技术涉及用于利用通用游戏玩法和将游戏代理放置在特定场景中来训练游戏代理的方法。甚至更具体地,本专利技术的各方面可以使用混合场景训练,以用于可配置环境中的强化学习,诸如赛车(racing)游戏代理。2.现有技术和相关信息的描述下面的背景信息可以呈现现有技术的特定方面的示例(例如但不限于方法、事实或常识),尽管期望现有技术有助于关于现有技术的附加方面进一步教育阅读者,但是现有技术不应该被解释为将本专利技术或其任何实施例限于其中陈述或暗示的任何内容、或者基于其推断的任何内容。参考图1,强化学习(rl)代理100是一种形式的人工智能,rl代理100通过与其环境102的交互来进行训练(也被称为“学习”)。在代理的训练的每个时间步骤,它被提供有对它的当前状态的观察104。代理100随后采取动作106,该动作106将它转变为新状态并且生成奖励项。各种已有rl算法和模型108提供用于最终找到最佳策略110(从状态到动作的映射)的例程,该最佳策略110将会使奖励项的某个函数(诸如,期望总和)最大化。在简单的领域中,rl代理被期望能够基于其自己的动作而体验所有可能的状态。然而,在复杂的问题(诸如,学习在交通中驾驶自主车辆甚至使自主车辆比赛)中,学习代理将会遇到许多挑战,该学习代理需要来自信息学习场景(诸如,在两辆汽车之间驾驶)的数据。例如,如果环境足够大,则由学习代理进行的随机甚至有目标的探索将会具有太多的区域要探索,从而可能错过重要的场景。另外,强化学习代理在其规划中几乎总是具有有限的范围(或有效的有限范
技术介绍
技术实现思路
1、本专利技术的实施例提供了一种利用混合场景训练来训练强化学习代理的方法,包括:在具有一个或多个预定场景属性的环境中提供推出工作者(rollout worker);在专注于一个或多个特定技能的同时,在所述环境中操作所述推出工作者;对于成功地实现所述一个或多个特定技能提供奖励;以及为所述推出工作者创建用于优化奖励的策略。
2、本专利技术的实施例还提供了一种使用混合场景训练的深度强化学习架构,包括:一组推出工作者;训练器;以及一组场景属性,其中,所述训练器改进用于确定环境中的推出工作者的动作的模型和策略;所述推出工作者基于从场景属性中取得的预定启动条件而在环境中操作;以及来自在具有所述预定启动条件的环境中操作的推出工作者的数据被收集,并且存储在所述训练器的经验回放缓冲器中。
3、本专利技术的实施例还提供了一种利用深度强化学习来训练代理以在赛车视频游戏中进行交互的方法,包括:学习策略,所述策略基于由所述代理进行的观察并且基于价值函数来选择动作,所述价值函数估计对于每个可能动作的未来奖励;将所述代理的核心动作映射到改变速率维度和转向维度中的任一个,其中,所述改变速率维度和转向维度两者都是连续值维度;以及在具有预定义场景属性的环境中训练所述代理,其中,所述预定义场景属性包括启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。
4、在一些实施例中,所述方法还包括:向所述代理提供关于自身和每个对手的位置、速率和加速度状态信息;以及向所述代理提供赛道的地图作为定义其左边缘和右边缘以及中心线的点的列表。
5、在一些实施例中,所述方法还包括:在具有可变数量的对手并且在赛道周围按照不同配置开始的比赛场景中训练代理;以及训练所述代理对抗对手,所述对手是从游戏提供的人工代理、利用变化的奖励函数训练的其它代理和由控制器控制的遵循特定形势路线的代理中选择的。
6、参考下面的附图、描述和权利要求,本专利技术的这些和其它特征、方面和优点将会变得更好理解。
本文档来自技高网...【技术保护点】
1.一种利用混合场景训练来训练强化学习代理的方法,包括:
2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。
3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。
4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。
5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加的推出工作者。
6.如权利要求5所述的方法,其中,随机地选择所述一组预定场景属性。
7.如权利要求5所述的方法,其中,基于场景加权来选择所述一组预定场景属性。
8.如权利要求5所述的方法,其中,根据由先前环境中的先前推出工作者遇到的事件来自动地创建所述一组预定场景属性。
9.如权利要求1所述的方法,还包括:提供在环境中表现良好的对手分布的场景属性。<
...【技术特征摘要】
【国外来华专利技术】
1.一种利用混合场景训练来训练强化学习代理的方法,包括:
2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。
3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。
4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。
5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加的推出工作者。
6.如权利要求5所述的方法,其中,随机地选择所述一组预定场景属性。
7.如权利要求5所述的方法,其中,基于场景加权来选择所述一组预定场景属性。
8.如权利要求5所述的方法,其中,根据由先前环境中的先前推出工作者遇到的事件来自动地创建所述一组预定场景属性。
9.如权利要求1所述的方法,还包括:提供在环境中表现良好的对手分布的场景属性。
10.如权利要求1所述的方法,其中,所述场景属性包括复制数量,所述复制数量定义在环境中操作的并行推出工作者的数量。
11.如权利要求1所述的方法,其中,所...
【专利技术属性】
技术研发人员:T·J·沃尔什,V·科佩拉,S·巴雷特,M·D·托缪尔,P·马卡尔平,P·沃尔曼,
申请(专利权)人:索尼集团公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。