智能体的动作决策模型的训练方法、动作决策方法及装置制造方法及图纸

技术编号：45801266 阅读：15 留言：0更新日期：2025-07-11 20:15

本申请公开了一种智能体的动作决策模型的训练方法、动作决策方法及装置，属于计算机技术领域。本申请通过在历史轨迹的基础上构建状态拓扑图，能够充分反映智能体的动作的经验分布，对历史轨迹的信息利用率更高，带来了更多的信息量，在状态拓扑图的基础上指导训练动作反馈模型，提升了动作反馈模型的准确性，结合状态拓扑图和动作反馈模型，约束动作值模型的训练过程，得到准确性更好、性能更优的动作值模型，利用动作值模型协助训练出准确性更好的动作决策模型，有助于对智能体在给定状态下执行何种动作进行精准决策，并且动作决策模型也可以与大模型结合相互促进训练，提升双方各自的性能表现。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别涉及一种智能体的动作决策模型的训练方法、动作决策方法及装置。

技术介绍

1、随着计算机和机器人技术的发展，以机器人、机械臂、大模型为代表的智能体，引起了广泛关注。目前，智能体的应用场景逐渐扩展到涵盖机器人控制、视频、游戏等众多工业应用场景，也涉及到智能体与人类的交互场景和非交互场景。

2、智能体执行何种动作是由动作决策模型来进行决策的，当动作决策模型性能不足时，智能体将会无法执行恰当的动作，最终无法完成任务。因此，如何训练出更加精准的动作决策模型，以提升动作决策模型的性能，是一个亟需解决的问题。

技术实现思路

1、本申请实施例提供了一种智能体的动作决策模型的训练方法、动作决策方法及装置，能够训练出更加精准的动作决策模型，提升动作决策模型的性能，从而为智能体决策出更加精准的动作。该技术方案如下：

2、一方面，提供了一种智能体的动作决策模型的训练方法，所述方法包括：

3、基于智能体的多条历史轨迹，构建状态拓扑图，每条所述历史轨迹包含多个...

【技术保护点】

1.一种智能体的动作决策模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于智能体的多条历史轨迹，构建状态拓扑图包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述状态拓扑图，训练所述智能体的动作反馈模型包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述状态拓扑图进行轨迹采样，得到多对采样轨迹包括：

5.根据权利要求4所述的方法，其特征在于，所述沿着从所述采样点出发的有向边开始进行轨迹采样，在轨迹长度到达采样长度时停止采样，得到一条采样轨迹包括：

>6.根据权利要求3...

【技术特征摘要】

1.一种智能体的动作决策模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于智能体的多条历史轨迹，构建状态拓扑图包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述状态拓扑图，训练所述智能体的动作反馈模型包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述状态拓扑图进行轨迹采样，得到多对采样轨迹包括：

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述状态拓扑图和所述动作反馈模型，训练所述智能体的动作值模型包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述经验动作值函数和所述动作反馈模型，训练所述动作值模型包括：

9.根据权利要求8所述的方法，其特征在于，所述基于所述经验动作值函数和所述预估动作值，获取约束损失项包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述支持动作集中各个动作的经验动作值和预估动作值，确定所述关注节点的动作值误差包括：

11.根据权利要求8所述的方法，其特征在于，所述基于所述动作反馈模型和所述预估动作值，获取动作值损失项包括：

12.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：白丰硕，赵瑞，韩磊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人