【技术实现步骤摘要】
本专利技术涉及一种用于学习策略的方法、计算机程序和机器可读存储介质、执行所述方法的系统。
技术介绍
1、强化学习(rl)旨在通常使用时间差异(td)方法来学习通过交互使马尔可夫决策过程(mdp)中的奖励最大化的策略。相比之下,离线rl聚焦于从未知策略(可能是针对不同任务设计的策略)中采样的静态数据集学习最佳策略。因此,算法被期望在没有与环境交互的能力的情况下学习。这在探索成本高昂的环境中非常有用。
2、几乎所有现代基于td的深度rl方法都在实践中执行偏离策略(off-policy)学习。为了提高数据效率和学习稳定性,经常使用经验重放缓冲区。该缓冲区存储来自过时版本策略的样本。此外,经常使用探索策略,诸如ε贪婪(epsilon greedy)或软行动者评价者(soft actor critic(sac))风格的熵正则化,这也会导致偏离策略学习。在实践中,当前策略和缓冲区中的样本之间的差异通过以下来限制:通过设置对缓冲区大小的限制和丢弃旧数据;或者通过保持探索策略相对接近经学习的策略。
3、然而,在离线rl设置中,其
...【技术保护点】
1.一种用于代理的策略(π)的强化学习的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的方法,其中第一神经网络计算Q函数或价值函数,其中使用重新加权的损失(LQ)更新(S4)第一神经网络的参数(θQ)的步骤如下执行:
3.根据权利要求1或2所述的方法,其中对Q学习更新应用保守Q学习正则化。
4.根据前述权利要求中任一项所述的方法,其中所述辅助参数(A,B)由k×m矩阵给出,其中k是所述第一神经网络的倒数第二层的特征的数量,其中m是3至5之间的数字,或者m最多等于2k。
5.一种计算机实现的方法,用于根据根据前述
...【技术特征摘要】
1.一种用于代理的策略(π)的强化学习的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的方法,其中第一神经网络计算q函数或价值函数,其中使用重新加权的损失(lq)更新(s4)第一神经网络的参数(θq)的步骤如下执行:
3.根据权利要求1或2所述的方法,其中对q学习更新应用保守q学习正则化。
4.根据前述权利要求中任一项所述的方法,其中所述辅助参数(a,b)由k×m矩阵给出,其中k是所述第一神经网络的倒数第二层的特征的数量,其中m是3至5之间的数字,或者m最多等于2k。
5.一种计算机实现的方法,用于根据根据前述任一权利要求获得的经学习的策略(πθ)来操作代理,其中传感器感测代理的环境,并且其中根据感测到的环境来确定当前状态,并且其...
【专利技术属性】
技术研发人员:F·博肯坎普,G·马内克,J·Z·柯尔特,M·罗德里克,
申请(专利权)人:罗伯特·博世有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。