下载基于优胜劣汰的深度强化学习策略网络存储方法及设备的技术资料

文档序号:25399076

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

一种基于优胜劣汰的深度强化学习策略网络的存储方法,该方法包括:获取当前训练周期的结果和策略网络;判断所述当前训练周期的结果是否满足策略网络测试要求;在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下,进行策略网络测试;获得该策略网...
该专利属于北京航空航天大学所有,仅供学习研究参考,未经过北京航空航天大学授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。