用于实行示教学习、特别是模仿学习的方法和装置制造方法及图纸

技术编号:28959079 阅读:14 留言:0更新日期:2021-06-23 08:55
提供了用于实行示教学习、特别是模仿学习的方法和装置。用于基于与第一域、特别是源域相关联的数据实行示教学习LfD、特别是模仿学习的计算机实现的方法,所述方法包括:确定表征所述第一域的示教者的第一数据,其中特别地,所述第一数据表征所述示教者的传感器数据和/或观察所述示教者的至少一个旁观者的传感器数据;基于所述第一数据从所述第一域确定第一知识;将所述第一知识的至少一部分转移到第二域、特别是目标域。

【技术实现步骤摘要】
用于实行示教学习、特别是模仿学习的方法和装置
示例性实施例涉及一种用于基于与第一域相关联的数据实行示教学习(LearningfromDemonstration,LfD)、特别是模仿学习(ImitationLearning,IL)的方法。另外的示例性实施例涉及一种用于基于与第一域相关联的数据实行示教学习、特别是模仿学习的装置。
技术实现思路
示例性优选实施例涉及一种用于基于与第一域、特别是源域相关联的数据实行示教学习LfD、特别是模仿学习的方法、优选地是计算机实现的方法,所述方法包括:确定表征所述第一域的示教者(特别是所述示教者的行为、诸如例如移动)的第一数据,其中特别地,所述第一数据表征所述示教者的传感器数据和/或观察所述示教者的至少一个旁观者的传感器数据;基于所述第一数据从所述第一域确定第一知识;将所述第一知识的至少一部分转移到第二域、特别是目标域。这使得能够在第二域中采用所述第一知识的所述至少一部分。根据另外的优选实施例,该方法可以例如在“示教学习”(LfD)的领域中使用,例如,以解决以下任务中的至少一个任务:(1)在给定观察结果的情况下推断所选动作对产出(outcome)的效果,以及(2)模仿学习。根据另外的优选实施例,当记录示教者(或被称为专家)的传感器与对于要训练的(人工智能,AI)代理可用的那些传感器不同时,示教学习中的主要问题可能出现。例如,根据另外的优选实施例,例如,为了开发自动驾驶汽车,可以部署无人机在高速公路上飞行,以记录由人类驾驶的汽车的相对大量的示教。根据专利技术人的分析,在这样的无人机记录中,用于应用LfD技术的一些关键变量可能完全缺失(例如,所观察到的汽车的指示灯),或者它们可能比人类或传感器可以从汽车内观察到的噪声(与(一个或多个)无人机的视角形成对比)更大。另外,根据专利技术人的分析,忽略这样的问题或以天真的方式解决这样的问题可能导致关于示教者的行为以及示教者的动作对环境的效果的显著错误的结论。作为根据另外的实施例的简单示例,假设想要使用高速公路无人机数据以学习“示教者汽车”的加速动作A如何影响在较慢(例如,右)车道上在其前面的“先导汽车(leadcar)”的车道改变行为Z。根据另外的优选实施例,稍微简化现实,假设先导汽车的指示灯用作完美的协调设备:每当它亮起时,其都将导致(1)示教者汽车减速,并且(2)先导汽车改变车道到快车道。现在假设只使用记录在所述(一个或多个)无人机(其中不包含指示灯)的无人机数据中的变量,据此估计P(Z|A)(在给定加速的情况下改变车道的概率)。这可能得出如下结论:即代替示教者的代理可以任意挑选任何加速或减速动作,并且先导汽车将完美地适应Z并且仅在代理减速(这在实际中可能导致撞车)时改变车道。为了至少部分地减轻这些缺点,提出了根据实施例的原理。根据另外的优选实施例,所述步骤:确定表征所述第一域的所述示教者(即,表征所述示教者的行为、诸如例如移动)的第一数据、基于所述第一数据从所述第一域确定第一知识、将所述第一知识的至少一部分转移到第二域,使得能够在传感器转变下——即当a)示教者的传感器,和/或b)被用来观察示教者的传感器,和/或c)取决于所述示教者要训练的AI代理的传感器是不同的时——实现示教学习(LfD)。根据另外的优选实施例,所述第一数据可以包括:所述示教者的传感器数据;和/或至少一个观察者的传感器数据,该至少一个观察者被配置成至少暂时观察所述示教者;和/或从所述示教者的所述传感器数据导出的数据;和/或从至少一个观察器的所述传感器数据导出的数据,该至少一个观察者被配置成至少暂时观察所述示教者。根据另外的优选实施例,可以(优选附加地)使用在第一(即,源)域中的旁观者的传感器特性和/或在第二(即,目标)域中的目标代理的传感器特性,即P_S(Y_S|X)和P_T(Y_T|X)。根据下面进一步详细解释的另外的优选实施例,提出了方法和技术,它们使得能够使用因果模型,特别是在人口层面上,优选地严格地分析相关根本机制(决策-效果和示教者策略)可以从可用的观察结果中标识和转移到什么程度。此外,另外的优选实施例提出了确定、特别是计算它们的算法。根据另外的优选实施例,引入了代理方法,所述代理方法至少在一些情况下沿着其与确切解的接近度上的理论界限,可以比确切解更容易计算和/或更容易根据有限数据进行估计和/或更容易解释。根据另外的优选实施例,第一域也可以被标示为“源域”,其中,所述示教者(例如,根据上述示例的示教者汽车)起作用。根据另外的优选实施例,第二域也可以被标示为“目标域”,其中目标代理(在上述示例中被称为“AI代理”)进行观察(例如,实行LfD和/或使用LfD进行训练)和起作用。根据另外的优选实施例,术语“域”可以标示环境和/或传感器和/或(一个或多个)相应代理的因果结构、优选地是其完整的因果结构。另外的优选实施例进一步包括:借助于(优选因果的)有向无环图DAG对第一(例如,源)域进行建模,和/或借助于(优选因果的)有向无环图对第二(例如,目标)域进行建模。根据另外的优选实施例,例如,在所述DAG内可以使用以下变量:变量“X”可以表征系统的状态,变量“A”可以表征代理的动作,并且变量“Z”可以表征(即,代表)产出(例如,抽象变量,其可以例如是比如说在给定状态和动作的情况下,在下一时间实例中的汽车状态)。根据另外的优选实施例,可以使用以下变量,尤其是来表征观察结果:变量“”可以表征示教者的输入,其例如由示教者的(一个或多个)传感器所生成;变量“”可以表征AI代理对源系统状态的观察结果(例如,在上述示例的上下文中,是来自高速公路的无人机数据),并且在目标域中,变量“”可以表征到目标代理的通过其传感器测量的输入。根据另外的优选实施例,令源域和目标域中变量上的分布(例如,P(Z))分别用下标“S”和“T”标示(例如,和)。根据另外的优选实施例,令标示示教者(也被标示为“专家”)的策略,并且标示目标代理的策略。另外的优选实施例涉及一种设计目标代理的方法,该目标代理例如基于已知的内容和/或可以从源域(例如,从观察示教者)导出的内容及其与目标域的关系来进行观察并且在目标域中成功起作用。根据另外的优选实施例,所述方法进一步包括:确定、特别是推断动作对第二域中的产出的效果,特别是以在所述第二域中的观察结果为条件。根据另外的优选实施例,所述方法进一步包括:提供与所述产出相关联的效用函数u(Z),以及可选地,通过使所述效用函数u关于动作a最大化、特别是基于所述观察结果来确定第一动作,其中,可以例如基于方程来实行所述可选的确定步骤,其中,E[]是期望值。根据另外的优选实施例,所述方法进一步包括:在给定第二域中的一个观察结果或所述观察结果的情况下,确定、特别是推断动作a上的条件分布,优选地使得与所述第二域相关联的目标代理表现得类似于第一域的一个示教者或所述示教者。根据另外的优选实施例,所述方法进一步包括:优选地对于z的所有值和/或a的所有值,a)使用以下方程、特别本文档来自技高网...

【技术保护点】
1.用于基于与第一域(D_1)相关联的数据实行示教学习LfD、特别是模仿学习的计算机实现的方法,所述方法包括:确定(100)表征所述第一域(D_1)的示教者(10)的第一数据(Dat_1),其中,所述第一数据(D_1)表征所述示教者(10)的传感器数据和/或观察所述示教者(10)的至少一个旁观者的传感器数据;基于所述第一数据(Dat_1)从所述第一域(D_1)确定(110)第一知识(KN_1);将所述第一知识(KN_1)的至少一部分(KN_1')转移(120)到第二域(D_2)。/n

【技术特征摘要】
20191220 EP 19218664.11.用于基于与第一域(D_1)相关联的数据实行示教学习LfD、特别是模仿学习的计算机实现的方法,所述方法包括:确定(100)表征所述第一域(D_1)的示教者(10)的第一数据(Dat_1),其中,所述第一数据(D_1)表征所述示教者(10)的传感器数据和/或观察所述示教者(10)的至少一个旁观者的传感器数据;基于所述第一数据(Dat_1)从所述第一域(D_1)确定(110)第一知识(KN_1);将所述第一知识(KN_1)的至少一部分(KN_1')转移(120)到第二域(D_2)。


2.根据权利要求1所述的方法,进一步包括:借助于有向无环图DAG(G1)对第一域(D_1)进行建模(130),和/或借助于有向无环图(G2)对第二域(D_2)进行建模(132)。


3.根据前述权利要求中至少一项所述的方法,进一步包括:确定、特别是推断(140)动作(A)对第二域(D_2)中的产出(Z)的效果(EF),特别是以在所述第二域(D_2)中的观察结果(YT)为条件。


4.根据权利要求3所述的方法,进一步包括:提供(142)与所述产出(Z)相关联的效用函数u(Z),以及可选地,通过使所述效用函数u(Z)关于动作a最大化、特别是基于所述观察结果(YT)来确定(144)第一动作(a1),其中,可以例如基于方程来实行所述可选的确定(144)步骤,其中,E[]是期望值。


5.根据前述权利要求中至少一项所述的方法,进一步包括:在给定第二域(D_2)中的一个观察结果或所述观察结果(YT)的情况下,确定、特别是推断(150)动作a上的条件分布,优选地使得与所述第二域(D_2)相关联的目标代理(20)表现得类似于第一域(D_1)的一个示教者或所述示教者(10)。


6.根据前述权利要求中至少一项所述的方法,进一步包括:优选地对于z的所有值和/或a的所有值,a)使用(160)以下方程、特别是利用以下方程来表征所述DAG(G1,G2)中的至少一个的一个或多个方面

,其中,表征与示教者的动作和旁观者的观察结果有关的产出在作为源域的第一域中的联合分布,其中,特别是在离散域的情况下表征求和运算符,或者特别是在连续域的情况下表征积分运算符,其中,表征在给定状态的情况下在源域(D_1)中的观察结果的条件分布,并且表征产出、动作和状态的联合分布,其中,表征在给定动作和状态的情况下产出的条件分布,其中,表征示教者(10)的策略,其中特别地,示教者(10)的所述策略是在给定源域(D_1)中的示教者(10)的观察结果的情况下动作的条件分布,并且其中,表征源域中的示教者(10)的观察结果和状态的联合分布,和/或b)使用(160)以下方程、特别是利用以下方程来表征所述DAG(G1,G2)中的至少一个的一个或多个方面,其...

【专利技术属性】
技术研发人员:P·盖格S·J·厄特萨米
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1