【技术实现步骤摘要】
本公开涉及人工智能领域,特别涉及一种策略模型训练方法和装置、动作预测方法和装置、智能体。
技术介绍
1、强化学习在策略游戏、机器人和推荐系统等领域取得了令人瞩目的成就。然而,安全性问题仍然是强化学习在实际场景中部署的主要挑战,尤其是在对安全性要求较高的场景中。这些场景要求对累积成本约束和状态成本约束都予以关注。例如,在自动驾驶场景下,不仅需要减少危险驾驶的情况,还需要防止危险碰撞。
2、多约束的离线强化学习是解决上述问题的一种潜在有效的方法,其通过从预先收集的离线数据集中学习满足累积成本约束和状态成本约束的策略。目前,通过利用约束马尔科夫决策过程(constrained markov decision process,简称:cmdp)的框架来建模和处理离线数据集,以学习满足安全约束的策略。
技术实现思路
1、专利技术人注意到,在相关技术中,利用cmdp的框架来建模和处理离线数据集,以学习满足安全约束的策略。然而,对于多约束问题,相关技术通常采用拉格朗日乘子法和罚函数法等方法。这
...【技术保护点】
1.一种策略模型训练方法,包括:
2.根据权利要求1所述的策略模型训练方法,其中,所述对所述策略模型进行训练包括:
3.根据权利要求2所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
4.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
5.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
6.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
7.根据权利要求2所述的策略模型训练方法,
...【技术特征摘要】
1.一种策略模型训练方法,包括:
2.根据权利要求1所述的策略模型训练方法,其中,所述对所述策略模型进行训练包括:
3.根据权利要求2所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
4.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
5.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
6.根据权利要求3所述的策略模型训练方法,其中,所述更新所述策略模型的网络参数包括:
7.根据权利要求2所述的策略模型训练方法,其中,所述确定与所述状态样本和所述动作样本对应的累计成本估计值包括:
8.根据权利要求2所述的策略模型训练方法,其中,所述确定与所述状态样本和所述动作样本对应的状态成本估计值包括:
9.根据权利要求2所述的策略模型训练方法,其中,所述对所述策略模型进行训练包括:
10.根据权利要求9所述的策略模型训练方法,其中,
11.根据权利要求1-10中任一项所述的策略模型训练方法,其中,所述更新所述奖励q值模型的第二参数包括:
12.根据权利要求11所述的策略模型训练方法,其中,所述对所述奖励q值模型中的第二参数进行更新包括:
13.根据权利要求11所述的策略模型训练方法,其中,所述确定第一目标值包括:
14.根据权利要求1-10中任一项所述的策略模型训练方法,其中,更新所述累计成本q值模型的第二...
【专利技术属性】
技术研发人员:沈力,管家意,张天乐,李斌,李律松,何晓冬,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。