下载约束下的强化学习的技术资料

文档序号:42380596

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

提供了一种用于利用数据集进行离线强化学习的计算机实现的方法。该方法包括训练神经网络,该神经网络输入状态‑动作对并分别针对一个或多个安全约束和奖励中的每一个输出相应的Q函数。神经网络具有线性输出层和由特征映射函数表示的剩余非线性层。训练包括通...
该专利属于国际商业机器公司所有,仅供学习研究参考,未经过国际商业机器公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。