当前位置: 首页 > 专利查询>罗伯特专利>正文

用于强化学习的方法和设备技术

技术编号:37535838 阅读:11 留言:0更新日期:2023-05-12 16:03
一种用于强化学习的方法和设备,其中所述方法包括提供(202)用于强化学习的策略的参数,取决于策略确定(204)行为策略,用行为策略对训练数据集进行采样(206),以及用目标函数确定(208)参数的更新,其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新,所述差异取决于策略和行为策略,或者其中所述方法包括提供用于强化学习的策略的参数分布,取决于策略确定行为策略,用行为策略对训练数据集进行采样,以及用目标函数确定分布的更新,其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新,所述差异取决于策略和行为策略。策略和行为策略。策略和行为策略。

【技术实现步骤摘要】
用于强化学习的方法和设备


[0001]本专利技术涉及用于机器学习的设备、计算机程序和计算机实现的方法。

技术介绍

[0002]相对熵策略搜索,Jan Peters,Katharina M
ü
lling,Yasemin Altung,《第二十四届AAAI人工智能会议(AAAI

10)学报》,2010年,公开了相对熵策略搜索的各方面。

技术实现思路

[0003]一种用于强化学习的方法,包括提供用于强化学习的策略的参数,取决于策略确定行为策略,用行为策略对训练数据集进行采样,以及用目标函数确定参数的更新,其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新,所述差异取决于策略和行为策略,或者其中所述方法包括提供用于强化学习的策略的参数分布,取决于策略确定行为策略,用行为策略对训练数据集进行采样,以及用目标函数确定分布的更新,其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新,所述差异取决于策略和行为策略。这样,就不必要确定相对熵策略搜索问题的封闭式解。代替地通过优化目标函数来找到更新策略,所述目标函数对应于可以由训练数据计算出的下界。
[0004]所述方法可以包括取决于导致目标函数的值大于至少一个其它分布所产生的目标函数的值的分布来确定分布的更新。这样,通过优化关于策略参数分布的目标函数来找到策略。
[0005]优选地,所述方法包括取决于使目标函数的值最大化的分布来确定分布的更新。
[0006]所述方法可以包括提供参数值上的参考分布,以及提供置信参数,其中所述目标函数包括取决于置信参数和分布与参考分布之间的Kullback

Leibler散度之和的项。该项计及从使用训练数据集估计预期奖励产生的不确定性。
[0007]所述方法可以包括从参考分布或分布采样参数,并且取决于从分布采样的参数值来确定行为策略。这样,通过优化关于定义分布的参数的目标函数来找到策略。策略的参数可从之后的分布导出。
[0008]所述方法可以包括确定导致大于其它参数值所产生的目标函数的值的目标函数的值的参数值。这样,通过优化关于策略参数的目标函数来找到策略。
[0009]优选地,所述方法包括确定使目标函数的值最大化的参数值。
[0010]所述方法可以包括取决于初始参数值或取决于参数值来确定行为策略。
[0011]所述方法可以包括取决于参数值来确定策略,或者确定分布并从分布采样策略参数。
[0012]所述方法可以包括接收输入数据并用策略从输入数据确定输出数据。
[0013]一种用于强化学习的设备,特别是具有输入和输出以及至少一个处理器和至少一个存储装置,被配置用于执行所述方法中的步骤。
[0014]一种包括计算机可读指令的计算机程序,当在计算机上执行时,使计算机施行所述方法。
附图说明
[0015]进一步的有利实施例可从以下描述和附图导出。在附图中:图1示意性地描绘了用于强化学习的设备的一部分,图2描绘了用于强化学习的方法的第一实施例中的步骤,图3描绘了用于强化学习的方法的第二实施例中的步骤。
具体实施方式
[0016]图1示意性地描绘了用于强化学习的设备100的一部分。设备100包括至少一个处理器102和至少一个存储装置104。所述至少一个存储装置104可以存储包括计算机可读指令的计算机程序,当在计算机上执行时,使计算机施行下面将参考图2和图3描述的方法。设备100被配置用于执行方法中的步骤,特别是当至少一个处理器102执行计算机程序的指令时。
[0017]示例中的设备100包括输入106和输出108。输入106被配置用于接收输入数据。输出108被配置为输出输出数据。
[0018]输入106可以被配置用于从传感器110接收输入数据。传感器110可以包括相机或麦克风。输入数据可以包括数字图像(例如,视频)、雷达、激光雷达、超声波、运动、热图像、声纳或数字音频信号中的至少一个。
[0019]设备100可以被配置用于检测输入数据中的异常、对输入数据进行分类、检测输入数据中对象的存在或对输入数据施行语义分割,例如,关于交通标志、道路表面、行人、车辆。
[0020]设备100可以被配置用于控制装置112。装置112可以是车辆或机器人。设备100可以被配置用于取决于是否在输入数据中检测到异常来控制装置112。设备100可以被配置用于取决于输入数据的分类来控制装置112。设备100可以被配置用于取决于是否在输入数据中检测到对象的存在来控制装置112。设备100可以被配置用于取决于对输入数据语义分割的结果来控制装置112。
[0021]该方法适用于上下文赌博机(contextual bandit)问题。输入数据分类和异常检测都可以被框定为上下文赌博机问题。该方法也适用于被表示为上下文赌博机问题的其它问题。
[0022]上下文赌博机问题由状态集合S、动作集合A、S上未知初始状态分布
µ
和未知随机奖励函数定义,其中标示区间[0;1]上所有概率分布的集合,
µ
(s)标示初始状态分布下的状态的概率质量或概率密度,以及标示以状态和动作为条件的奖励的概率质量或概率密度。
[0023]策略是将状态映射到动作上的分布的函数。
[0024]本文中考虑的上下文赌博机问题包括参数策略,其中是参数可以取的某种可能值的集合。上下文赌博机问题的目标在于找到最大化预期奖励的策略参数:
该方法训练设备100。该方法可以训练设备100,特别是用于检测输入数据中的异常、对输入数据进行分类、检测输入数据中对象的存在或者对输入数据施行语义分割。
[0025]由于
µ
和是未知的,因此不可计算及其相对于的梯度。因此,用包含状态、动作和奖励三元组的训练数据集来估计预期奖励或其梯度,其中,状态独立于
µ
采样,动作独立于具有概率密度的已知行为策略采样,并且奖励独立于奖励分布采样。
[0026]该方法包括计算的下界。示例中的下界可以仅使用训练数据集D来计算。
[0027]该方法包括使用该下界作为目标函数,因为最大化预期奖励的下界提供了具有高预期奖励的策略。
[0028]下面描述该方法的两个实施例。
[0029]参考图2描述第一实施例。
[0030]用于强化学习的方法的第一实施例包括步骤202。
[0031]在步骤202中,提供了用于强化学习的参数化策略的参数。在该示例中,提供了预确定迭代次数I,并且初始化用于对迭代计数的计数器i,例如,i=0。
[0032]之后,执行步骤204。
[0033]在步骤204中,取决于参数化策略确定行为策略。
[0034]之后,执行步骤206。
[0035]在步骤206中,用行为策略对训练数据集D进行采样。...

【技术保护点】

【技术特征摘要】
1.一种用于强化学习的方法,其特征在于,所述方法包括提供(202)用于强化学习的策略的参数,取决于策略确定(204)行为策略,用行为策略对训练数据集进行采样(206),以及用目标函数确定(208)参数的更新,其中所述目标函数将遵循策略时的预期奖励的估计和策略与行为策略之间距离的估计之间的差异映射到更新,所述差异取决于策略和行为策略,或者其中所述方法包括提供(304)用于强化学习的策略的参数分布,取决于策略确定(306)行为策略,用行为策略对训练数据集进行采样(308),以及用目标函数确定(310)分布的更新,其中所述目标函数将遵循策略时的预期奖励的估计的预期值和策略与行为策略之间距离的估计的预期值之间的差异映射到更新,所述差异取决于策略和行为策略。2.根据权利要求1所述的方法,其特征在于,所述方法包括取决于导致大于至少一个其它分布所产生的目标函数的值的目标函数的值的分布来确定(310)分布的更新。3.根据权利要求2所述的方法,其特征在于,所述方法包括取决于使目标函数的值最大化的分布来确定(310)分布的更新。4.根据权利要求1至3中的一项所述的方法,其特征在于,所述方法包括提供(300)参数值上的参考分布,以及提供置信参数,其中所述目标函数包括取决于置信参数和分布与参考分布之间的Kullback

...

【专利技术属性】
技术研发人员:H
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1