【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种智能体的动作决策模型的训练方法、动作决策方法及装置。
技术介绍
1、随着计算机和机器人技术的发展,以机器人、机械臂、大模型为代表的智能体,引起了广泛关注。目前,智能体的应用场景逐渐扩展到涵盖机器人控制、视频、游戏等众多工业应用场景,也涉及到智能体与人类的交互场景和非交互场景。
2、智能体执行何种动作是由动作决策模型来进行决策的,当动作决策模型性能不足时,智能体将会无法执行恰当的动作,最终无法完成任务。因此,如何训练出更加精准的动作决策模型,以提升动作决策模型的性能,是一个亟需解决的问题。
技术实现思路
1、本申请实施例提供了一种智能体的动作决策模型的训练方法、动作决策方法及装置,能够训练出更加精准的动作决策模型,提升动作决策模型的性能,从而为智能体决策出更加精准的动作。该技术方案如下:
2、一方面,提供了一种智能体的动作决策模型的训练方法,所述方法包括:
3、基于智能体的多条历史轨迹,构建状态拓扑图,每条所述历史轨迹包含多个
...【技术保护点】
1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:
5.根据权利要求4所述的方法,其特征在于,所述沿着从所述采样点出发的有向边开始进行轨迹采样,在轨迹长度到达采样长度时停止采样,得到一条采样轨迹包括:
【技术特征摘要】
1.一种智能体的动作决策模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于智能体的多条历史轨迹,构建状态拓扑图包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图,训练所述智能体的动作反馈模型包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述状态拓扑图进行轨迹采样,得到多对采样轨迹包括:
5.根据权利要求4所述的方法,其特征在于,所述沿着从所述采样点出发的有向边开始进行轨迹采样,在轨迹长度到达采样长度时停止采样,得到一条采样轨迹包括:
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述基于所述状态拓扑图和所述动作反馈模型,训练所述智能体的动作值模型包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述经验动作值函数和所述动作反馈模型,训练所述动作值模型包括:
9.根据权利要求8所述的方法,其特征在于,所述基于所述经验动作值函数和所述预估动作值,获取约束损失项包括:
10.根据权利要求9所述的方法,其特征在于,所述基于所述支持动作集中各个动作的经验动作值和预估动作值,确定所述关注节点的动作值误差包括:
11.根据权利要求8所述的方法,其特征在于,所述基于所述动作反馈模型和所述预估动作值,获取动作值损失项包括:
12.根据权利要求1所述的方法,其特征...
【专利技术属性】
技术研发人员:白丰硕,赵瑞,韩磊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。