【技术实现步骤摘要】
用于控制机器人的方法和设备
[0001]本公开涉及用于控制机器人的设备和方法。
[0002]多智能体学习是机器学习中的一个具有挑战性的问题,其在诸如分布式控制、机器人学(包括自主驾驶)和经济学之类的不同领域中具有应用。在许多多智能体系统中,智能体不一定针对其他智能体选择其最优战略。例如,自主车辆将不突然取代人类控制的车辆,并且将不在单独的路线上与人类控制的交通隔离。因此,自主车辆将不得不在具有人类控制的其他对象的混合交通中安全移动,由此这些外部对象也包括行人作为较弱的道路使用者。在人类控制的外部对象的情况下,至于这些其他对象接下来将执行哪个移动动作存在不确定性。
[0003]公开DE 10 2018 210 280 A1描述了一种用于特别是在具有人类控制的其他对象的混合交通中的自主车辆的轨迹规划方法。在该方法中,为每个其他对象建立Q函数,并通过最大化该Q函数为自主车辆和其他对象确定最优移动策略。根据最优移动策略,确定其他对象的轨迹以及自主车辆的轨迹。
[0004]然而,该方法具有指数级的运行时间和内存要求。该方法的内存要求是T >ꢀ×
A<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于控制机器人的方法,所述方法包括:获取表示机器人环境的传感器数据;根据传感器数据标识机器人环境中的一个或多个对象;将所述一个或多个对象中的每一个和机器人与多智能体系统的相应智能体相关联;为多智能体系统的每个智能体确定质量度量,所述质量度量包括针对一位置处的移动动作的奖励项和取决于其他智能体在一时间处占用与所述智能体相同位置的概率的耦合项;确定机器人的移动策略,所述移动策略以比具有为机器人确定的质量度量的较低值的移动动作更高的概率选择具有质量度量的较高值的移动动作;以及根据移动策略控制机器人。2.根据权利要求1所述的方法,其中耦合项是其他智能体的占用度量的泛函,其中,对于每个智能体,位置和时间的占用度量标示智能体在所述时间处于所述位置中的可能性。3.根据权利要求1或2所述的方法,其中确定质量度量包括在多次迭代中迭代地确定质量度量,其中每次迭代包括在多个时间步长之上从初始时间到结束时间的前向传递和在多个时间步长之上从结束时间到初始...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。