【技术实现步骤摘要】
用于自动影响执行器的方法和设备
本专利技术基于一种计算机实现的方法和一种用于自动影响执行器的设备,特别是借助于强化学习。
技术介绍
无模型的强化学习使得代理无需事先了解即可学习任务。在无模型的强化学习中,首先为探索设定前提:所述任务的目标是已知的。然而,路径,即达到所述目标所需要的动作是未知的。接着,代理学习达到所述目标。为了例如在机器人技术中传输常规的无模型强化学习以影响执行器,需要数百万个示例,直到机器人找到所述任务的目标为止。避免这种费事的探索的一种可能性是学习示范。在学习示范时,人类专家讲解任务,即讲解导致目标的动作序列。接着,所述代理学习也从新的起始位置开始到达所述目标。但是,用于此的资源,即例如时间、成本、示范或由人进行的监视,通常很少有可用的。因此,期望借助于强化学习来进一步改善对执行器的影响。
技术实现思路
这通过独立权利要求的主题来实现。一种用于自动地影响执行器、特别是机器人、机器、至少部分自主的车辆、工具或其一部分的方法规定,通过用于学习政策的探索策略提 ...
【技术保护点】
1.用于自动地影响执行器(108)、特别是机器人、机器、至少部分自主的车辆、工具或其一部分的方法,其特征在于,通过用于学习政策的探索策略提供(300)所述执行器(108)或所述执行器(108)的环境的至少一个状态,其中通过所述政策根据所述状态来定义(308)用于自动影响所述执行器(108)的动作,其中将状态值定义为在遵循所述政策的情况下从所述状态出发实现的报酬总和的期望值,其中将状态动作值定义为在所述状态下首先执行任意动作并且接着执行所述政策时所实现的报酬总和的期望值,其中根据所述状态值与所述状态动作值之间的差来定义优势,其中根据所述动作和所述状态,通过多个彼此独立的人工神 ...
【技术特征摘要】
20190521 DE 102019207410.31.用于自动地影响执行器(108)、特别是机器人、机器、至少部分自主的车辆、工具或其一部分的方法,其特征在于,通过用于学习政策的探索策略提供(300)所述执行器(108)或所述执行器(108)的环境的至少一个状态,其中通过所述政策根据所述状态来定义(308)用于自动影响所述执行器(108)的动作,其中将状态值定义为在遵循所述政策的情况下从所述状态出发实现的报酬总和的期望值,其中将状态动作值定义为在所述状态下首先执行任意动作并且接着执行所述政策时所实现的报酬总和的期望值,其中根据所述状态值与所述状态动作值之间的差来定义优势,其中根据所述动作和所述状态,通过多个彼此独立的人工神经网络定义多个优势,其中用于所述状态的所述政策定义使得关于所述多个优势的分布的经验平均值最大化的动作,其中所述探索策略预给定局部最大化上置信界限的至少一个状态,其中根据关于所述多个优势的分布的经验平均值和方差来定义所述上置信界限。
2.根据权利要求1所述的方法,其特征在于,为了自动影响所述执行器(108)通过所述探索策略提供(300)路标点的顺序排列的序列,所述路标点是通过所述执行器(108)的状态(sh)或所述执行器的环境的状态(sh)来定义的。
3.根据权利要求2所述的方法,其特征在于,将所述执行器(108)移动(302)到路标点,其中当到达所述路标点时,确定(308)或执行(310)针对所述路标点的动作(a)。
4.根据权利要求2或3所述的方法,其特征在于,检查(304)在从所述序列中的一个路标点移动到下一个路标点时所述执行器(108)是否与所述执行器(108)的环境中的障碍物发生碰撞,其中如果识别出存在所述碰撞,则中断到所述下一个路标点的移动,并且其中代替移动到所述下一个路标点,开始移动到所述序列中跟随所述下一个路标点、特别是直接跟随所述下一个路标点的路标点。
5.根据权利要求2至4中任一项所述的方法,其特征在于,检查(306)在从所述序列中的一个路标点移动到下一个路标点时是否可到达所述下一个路标点,其中如果确定不可到达所述下一个路标点,则中断到所述下一个路标点的移动,并且其中代替移动到所述下一个路标点,开始移动到所述序列中跟随所述下一个路标点的路标点。
6.根据权利要求2至5中任一项所述的方法,其特征在于,确定或近似(300)在多个上置信界限上的总和,其中为路标点的所述序列提供...
【专利技术属性】
技术研发人员:S霍庇,娄中余,
申请(专利权)人:罗伯特·博世有限公司,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。