用于利用课程和技能来训练人工智能代理的方法技术

技术编号:40663221 阅读:22 留言:0更新日期:2024-03-18 18:56
用于训练代理的方法使用被设计为教导在更大领域中有帮助的特定技能的场景的混合,诸如混合通用比赛和非常特定的战术比赛场景。方法的各方面可以包括以下的一个或多个:(1)通过使一个或多个汽车分散在赛道上,将代理训练为非常擅长于计时赛;(2)在具有可变数量的对手、在赛道周围按照不同配置开始的各种比赛场景中运行代理;(3)通过使用游戏提供的代理、根据本发明专利技术的各方面训练的代理或被控制以遵循特定行驶路线的代理来改变对手;(4)利用特定成功准则在各种比赛情况下设置具有对手的特定短场景;以及(5)基于代理在各种评估场景中表现如何,具有动态课程。

【技术实现步骤摘要】
【国外来华专利技术】

1.本专利技术的实施例总体上涉及训练人工智能代理。更具体地,本专利技术涉及用于利用通用游戏玩法和将游戏代理放置在特定场景中来训练游戏代理的方法。甚至更具体地,本专利技术的各方面可以使用混合场景训练,以用于可配置环境中的强化学习,诸如赛车(racing)游戏代理。2.现有技术和相关信息的描述下面的背景信息可以呈现现有技术的特定方面的示例(例如但不限于方法、事实或常识),尽管期望现有技术有助于关于现有技术的附加方面进一步教育阅读者,但是现有技术不应该被解释为将本专利技术或其任何实施例限于其中陈述或暗示的任何内容、或者基于其推断的任何内容。参考图1,强化学习(rl)代理100是一种形式的人工智能,rl代理100通过与其环境102的交互来进行训练(也被称为“学习”)。在代理的训练的每个时间步骤,它被提供有对它的当前状态的观察104。代理100随后采取动作106,该动作106将它转变为新状态并且生成奖励项。各种已有rl算法和模型108提供用于最终找到最佳策略110(从状态到动作的映射)的例程,该最佳策略110将会使奖励项的某个函数(诸如,期望总和)最大化。在简单的领域中,rl代理被期望能够本文档来自技高网...

【技术保护点】

1.一种利用混合场景训练来训练强化学习代理的方法,包括:

2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。

3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。

4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。

5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加...

【技术特征摘要】
【国外来华专利技术】

1.一种利用混合场景训练来训练强化学习代理的方法,包括:

2.如权利要求1所述的方法,还包括:将数据从所述推出工作者流传输到经验回放缓冲器,其中,所述经验回放缓冲器中的数据被分割成一个或多个表。

3.如权利要求2所述的方法,还包括:基于表比例对所述经验回放缓冲器中的数据进行重新加权,以确保来自难以达到的情况的数据不被忽略。

4.如权利要求1所述的方法,其中,所述场景属性包括以下各项中的一个或多个:启动条件、对手分布选项、复制数量、停止条件、经验表映射和场景加权。

5.如权利要求1所述的方法,还包括:在具有一组预定场景属性的附加环境中启动附加的推出工作者。

6.如权利要求5所述的方法,其中,随机地选择所述一组预定场景属性。

7.如权利要求5所述的方法,其中,基于场景加权来选择所述一组预定场景属性。

8.如权利要求5所述的方法,其中,根据由先前环境中的先前推出工作者遇到的事件来自动地创建所述一组预定场景属性。

9.如权利要求1所述的方法,还包括:提供在环境中表现良好的对手分布的场景属性。

10.如权利要求1所述的方法,其中,所述场景属性包括复制数量,所述复制数量定义在环境中操作的并行推出工作者的数量。

11.如权利要求1所述的方法,其中,所...

【专利技术属性】
技术研发人员:T·J·沃尔什V·科佩拉S·巴雷特M·D·托缪尔P·马卡尔平P·沃尔曼
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1