智能体的动作决策模型的训练方法、动作决策方法及装置制造方法及图纸

技术编号:45801266 阅读:15 留言:0更新日期:2025-07-11 20:15
本申请公开了一种智能体的动作决策模型的训练方法、动作决策方法及装置,属于计算机技术领域。本申请通过在历史轨迹的基础上构建状态拓扑图,能够充分反映智能体的动作的经验分布,对历史轨迹的信息利用率更高,带来了更多的信息量,在状态拓扑图的基础上指导训练动作反馈模型,提升了动作反馈模型的准确性,结合状态拓扑图和动作反馈模型,约束动作值模型的训练过程,得到准确性更好、性能更优的动作值模型,利用动作值模型协助训练出准确性更好的动作决策模型,有助于对智能体在给定状态下执行何种动作进行精准决策,并且动作决策模型也可以与大模型结合相互促进训练,提升双方各自的性能表现。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种智能体的动作决策模型的训练方法、动作决策方法及装置


技术介绍

1、随着计算机和机器人技术的发展,以机器人、机械臂、大模型为代表的智能体,引起了广泛关注。目前,智能体的应用场景逐渐扩展到涵盖机器人控制、视频、游戏等众多工业应用场景,也涉及到智能体与人类的交互场景和非交互场景。

2、智能体执行何种动作是由动作决策模型来进行决策的,当动作决策模型性能不足时,智能体将会无法执行恰当的动作,最终无法完成任务。因此,如何训练出更加精准的动作决策模型,以提升动作决策模型的性能,是一个亟需解决的问题。


技术实现思路

1、本申请实施例提供了一种智能体的动作决策模型的训练方法、动作决策方法及装置,能够训练出更加精准的动作决策模型,提升动作决策模型的性能,从而为智能体决策出更加精准的动作。该技术方案如下:

2、一方面,提供了一种智能体的动作决策模型的训练方法,所述方法包括:

3、基于智能体的多条历史轨迹,构建状态拓扑图,每条所述历史轨迹包含多个动作,每个所述动作用本文档来自技高网...

【技术保护点】

1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:

5.根据权利要求4所述的方法,其特征在于,所述沿着从所述采样点出发的有向边开始进行轨迹采样,在轨迹长度到达采样长度时停止采样,得到一条采样轨迹包括:

>6.根据权利要求3...

【技术特征摘要】

1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:

5.根据权利要求4所述的方法,其特征在于,所述沿着从所述采样点出发的有向边开始进行轨迹采样,在轨迹长度到达采样长度时停止采样,得到一条采样轨迹包括:

6.根据权利要求3所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图和所述动作反馈模型,训练所述智能体的动作值模型包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述经验动作值函数和所述动作反馈模型,训练所述动作值模型包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述经验动作值函数和所述预估动作值,获取约束损失项包括:

10.根据权利要求9所述的方法,其特征在于,所述基于所述支持动作集中各个动作的经验动作值和预估动作值,确定所述关注节点的动作值误差包括:

11.根据权利要求8所述的方法,其特征在于,所述基于所述动作反馈模型和所述预估动作值,获取动作值损失项包括:

12.根据权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:白丰硕赵瑞韩磊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1