【技术实现步骤摘要】
用于实行示教学习、特别是模仿学习的方法和装置
示例性实施例涉及一种用于基于与第一域相关联的数据实行示教学习(LearningfromDemonstration,LfD)、特别是模仿学习(ImitationLearning,IL)的方法。另外的示例性实施例涉及一种用于基于与第一域相关联的数据实行示教学习、特别是模仿学习的装置。
技术实现思路
示例性优选实施例涉及一种用于基于与第一域、特别是源域相关联的数据实行示教学习LfD、特别是模仿学习的方法、优选地是计算机实现的方法,所述方法包括:确定表征所述第一域的示教者(特别是所述示教者的行为、诸如例如移动)的第一数据,其中特别地,所述第一数据表征所述示教者的传感器数据和/或观察所述示教者的至少一个旁观者的传感器数据;基于所述第一数据从所述第一域确定第一知识;将所述第一知识的至少一部分转移到第二域、特别是目标域。这使得能够在第二域中采用所述第一知识的所述至少一部分。根据另外的优选实施例,该方法可以例如在“示教学习”(LfD)的领域中使用,例如,以解决以下任务中的至少一个任务:(1)在给定观察结果的情况下推断所选动作对产出(outcome)的效果,以及(2)模仿学习。根据另外的优选实施例,当记录示教者(或被称为专家)的传感器与对于要训练的(人工智能,AI)代理可用的那些传感器不同时,示教学习中的主要问题可能出现。例如,根据另外的优选实施例,例如,为了开发自动驾驶汽车,可以部署无人机在高速公路上飞行,以记录由人类驾驶的汽车的相对大量的示教。根据专利技术人的分 ...
【技术保护点】
1.用于基于与第一域(D_1)相关联的数据实行示教学习LfD、特别是模仿学习的计算机实现的方法,所述方法包括:确定(100)表征所述第一域(D_1)的示教者(10)的第一数据(Dat_1),其中,所述第一数据(D_1)表征所述示教者(10)的传感器数据和/或观察所述示教者(10)的至少一个旁观者的传感器数据;基于所述第一数据(Dat_1)从所述第一域(D_1)确定(110)第一知识(KN_1);将所述第一知识(KN_1)的至少一部分(KN_1')转移(120)到第二域(D_2)。/n
【技术特征摘要】
20191220 EP 19218664.11.用于基于与第一域(D_1)相关联的数据实行示教学习LfD、特别是模仿学习的计算机实现的方法,所述方法包括:确定(100)表征所述第一域(D_1)的示教者(10)的第一数据(Dat_1),其中,所述第一数据(D_1)表征所述示教者(10)的传感器数据和/或观察所述示教者(10)的至少一个旁观者的传感器数据;基于所述第一数据(Dat_1)从所述第一域(D_1)确定(110)第一知识(KN_1);将所述第一知识(KN_1)的至少一部分(KN_1')转移(120)到第二域(D_2)。
2.根据权利要求1所述的方法,进一步包括:借助于有向无环图DAG(G1)对第一域(D_1)进行建模(130),和/或借助于有向无环图(G2)对第二域(D_2)进行建模(132)。
3.根据前述权利要求中至少一项所述的方法,进一步包括:确定、特别是推断(140)动作(A)对第二域(D_2)中的产出(Z)的效果(EF),特别是以在所述第二域(D_2)中的观察结果(YT)为条件。
4.根据权利要求3所述的方法,进一步包括:提供(142)与所述产出(Z)相关联的效用函数u(Z),以及可选地,通过使所述效用函数u(Z)关于动作a最大化、特别是基于所述观察结果(YT)来确定(144)第一动作(a1),其中,可以例如基于方程来实行所述可选的确定(144)步骤,其中,E[]是期望值。
5.根据前述权利要求中至少一项所述的方法,进一步包括:在给定第二域(D_2)中的一个观察结果或所述观察结果(YT)的情况下,确定、特别是推断(150)动作a上的条件分布,优选地使得与所述第二域(D_2)相关联的目标代理(20)表现得类似于第一域(D_1)的一个示教者或所述示教者(10)。
6.根据前述权利要求中至少一项所述的方法,进一步包括:优选地对于z的所有值和/或a的所有值,a)使用(160)以下方程、特别是利用以下方程来表征所述DAG(G1,G2)中的至少一个的一个或多个方面
,其中,表征与示教者的动作和旁观者的观察结果有关的产出在作为源域的第一域中的联合分布,其中,特别是在离散域的情况下表征求和运算符,或者特别是在连续域的情况下表征积分运算符,其中,表征在给定状态的情况下在源域(D_1)中的观察结果的条件分布,并且表征产出、动作和状态的联合分布,其中,表征在给定动作和状态的情况下产出的条件分布,其中,表征示教者(10)的策略,其中特别地,示教者(10)的所述策略是在给定源域(D_1)中的示教者(10)的观察结果的情况下动作的条件分布,并且其中,表征源域中的示教者(10)的观察结果和状态的联合分布,和/或b)使用(160)以下方程、特别是利用以下方程来表征所述DAG(G1,G2)中的至少一个的一个或多个方面,其...
【专利技术属性】
技术研发人员:P·盖格,S·J·厄特萨米,
申请(专利权)人:罗伯特·博世有限公司,
类型:发明
国别省市:德国;DE
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。