温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种基于乐观投影的策略梯度多智能体强化学习方法,属于人工智能领域。本方法包含如下步骤:1、构建智能体初始策略网络;2、构建基于值分解的值函数评估网络;3、基于乐观投影对局部效用函数进行训练更新;4、使用整体Q值对值函数评估网络进...该专利属于江苏万维艾斯网络智能产业创新中心有限公司所有,仅供学习研究参考,未经过江苏万维艾斯网络智能产业创新中心有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种基于乐观投影的策略梯度多智能体强化学习方法,属于人工智能领域。本方法包含如下步骤:1、构建智能体初始策略网络;2、构建基于值分解的值函数评估网络;3、基于乐观投影对局部效用函数进行训练更新;4、使用整体Q值对值函数评估网络进...