用于强化学习的方法和设备技术

技术编号：37535838 阅读：11 留言：0更新日期：2023-05-12 16:03

一种用于强化学习的方法和设备，其中所述方法包括提供（202）用于强化学习的策略的参数，取决于策略确定（204）行为策略，用行为策略对训练数据集进行采样（206），以及用目标函数确定（208）参数的更新，其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新，所述差异取决于策略和行为策略，或者其中所述方法包括提供用于强化学习的策略的参数分布，取决于策略确定行为策略，用行为策略对训练数据集进行采样，以及用目标函数确定分布的更新，其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新，所述差异取决于策略和行为策略。策略和行为策略。策略和行为策略。

全部详细技术资料下载

【技术实现步骤摘要】
用于强化学习的方法和设备

[0001]本专利技术涉及用于机器学习的设备、计算机程序和计算机实现的方法。

技术介绍

[0002]相对熵策略搜索，Jan Peters，Katharina M
ü
lling，Yasemin Altung，《第二十四届AAAI人工智能会议（AAAI
‑
10）学报》，2010年，公开了相对熵策略搜索的各方面。

技术实现思路

[0003]一种用于强化学习的方法，包括提供用于强化学习的策略的参数，取决于策略确定行为策略，用行为策略对训练数据集进行采样，以及用目标函数确定参数的更新，其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新，所述差异取决于策略和行为策略，或者其中所述方法包括提供用于强化学习的策略的参数分布，取决于策略确定行为策略，用行为策略对训练数据集进行采样，以及用目标函数确定分布的更新，其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新，所述差异取决于策略和行为策略。这样，就不必要确定相对熵策略搜索问题的封闭式解。代替地通过优化目标函数来找到更新策略，所述目标函数对应于可以由训练数据计算出的下界。
[0004]所述方法可以包括取决于导致目标函数的值大于至少一个其它分布所产生的目标函数的值的分布来确定分布的更新。这样，通过优化关于策略参数分布的目标函数来找到策略。
[0005]优选地，所述方法包括取决于使目标函数的值最

【技术保护点】

【技术特征摘要】
1.一种用于强化学习的方法，其特征在于，所述方法包括提供（202）用于强化学习的策略的参数，取决于策略确定（204）行为策略，用行为策略对训练数据集进行采样（206），以及用目标函数确定（208）参数的更新，其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新，所述差异取决于策略和行为策略，或者其中所述方法包括提供（304）用于强化学习的策略的参数分布，取决于策略确定（306）行为策略，用行为策略对训练数据集进行采样（308），以及用目标函数确定（310）分布的更新，其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新，所述差异取决于策略和行为策略。2.根据权利要求1所述的方法，其特征在于，所述方法包括取决于导致大于至少一个其它分布所产生的目标函数的值的目标函数的值的分布来确定（310）分布的更新。3.根据权利要求2所述的方法，其特征在于，所述方法包括取决于使目标函数的值最大化的分布来确定（310）分布的更新。4.根据权利要求1至3中的一项所述的方法，其特征在于，所述方法包括提供（300）参数值上的参考分布，以及提供置信参数，其中所述目标函数包括取决于置信参数和分布与参考分布之间的Kullback
‑
...

【专利技术属性】
技术研发人员：H，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人