用于确定调节系统的调节参数的方法技术方案

技术编号:28923156 阅读:13 留言:0更新日期:2021-06-18 21:18
本发明专利技术涉及用于使用机器学习来确定调节系统(100)、尤其是机动车(110)的调节系统(100)、尤其是用于调节机动车(110)的行驶运行的调节系统(100)的调节参数(θj)的方法(200),其中所述方法(200)包括:提供(210)行驶轨迹(D)的集合;在使用逆向强化学习方法的情况下从所述行驶轨迹(D)中推导(220)奖励函数(Rj);基于所述奖励函数(Rj)来推导(230)特定于驾驶员类型的聚类(Cj);针对相应的特定于驾驶员类型的聚类(cj)确定(240)调节参数(θj)。

【技术实现步骤摘要】
用于确定调节系统的调节参数的方法
本公开涉及一种按照权利要求1所述的用于使用机器学习来确定调节系统、尤其是机动车的调节系统、尤其是用于调节机动车的行驶运行的调节系统的调节参数的方法。本公开还涉及一种按照权利要求6所述的用于利用调节系统来对机动车进行调节的方法。本公开还涉及一种按照权利要求10所述的调节系统。
技术介绍
调节系统在机动车中例如被用作驾驶员辅助系统,以便在某些行驶情况下对机动车的驾驶员进行辅助或使机动车的驾驶员减轻负担。为了实现该辅助功能,驾驶员辅助系统包括周围环境传感器,诸如雷达传感器、激光雷达传感器、激光扫描仪、视频传感器和超声传感器。只要车辆装备有导航系统,驾驶员辅助系统就也可以动用该系统的数据。此外,与车辆的车载电网优选地经由至少一条总线(BUS)、优选地CAN总线连接的驾驶员辅助系统也可以对车载系统、如尤其是转向系统、制动系统、动力总成系统和报警系统进行主动干预。通常,在车队之内有调节系统可用的情况下,使用调节系统的统一的数据编制(Bedatung)。必要时,还可以使调节系统与运动模式或者舒适模式适配。与个人驾驶员的驾驶行为的单独适配到目前为止尚未公知。因而,值得期望的是:提供一种调节系统,该调节系统能够实现与个人驾驶员的驾驶行为的这种单独适配。
技术实现思路
通过按照独立权利要求所述的调节系统和计算机实现的方法来实现这一点。优选的实施方式涉及一种用于使用机器学习来确定调节系统、尤其是机动车的调节系统、尤其是用于调节机动车的行驶运行的调节系统的调节参数的计算机实现的方法,其中该方法包括:提供行驶轨迹的集合D;在使用逆向强化学习方法的情况下从行驶轨迹中推导奖励函数;基于这些奖励函数来推导特定于驾驶员类型的聚类;针对相应的特定于驾驶员类型的聚类确定调节参数。在学习阶段,基于行驶轨迹的集合来使不同的驾驶员类型形成聚类。聚类的特性是:在同一聚类中的对象拥有类似的、尤其是相同的特性并且由此与不在同一聚类中的对象区别开。接着,在调节系统的应用阶段,调节系统可以通过选择特定的特定于驾驶员类型的聚类来与相应的驾驶员的驾驶行为单独适配。有利地,行驶轨迹基于不同的驾驶员或驾驶员类型的驾驶示范。奖励函数、英文rewardfunction是将奖励值分配给调节量的值的函数。有利地,奖励函数被选择为使得调节量与额定量的偏差越小,该奖励函数就取越大的值。按照本专利技术,针对相应的行驶轨迹确定相应的奖励函数,该奖励函数在该行驶轨迹方面被优化。通过使用逆向强化学习方法、例如在使用逆向强化学习算法的情况下推导奖励函数。该方法和示例性的算法例如在https://arxiv.org/pdf/1712.05514.pdf:InverseReinforceLearningwithNonparametricBehaviorClustering,SiddharthanRajasekaran,JinweiZhang和JieFu下公开。接着,基于这些奖励函数来推导驾驶员类型聚类。奖励函数尤其描述了相应的驾驶员所希望的状态和动作。因此,奖励函数尤其可以对应于个人驾驶员的目标和诉求,诸如维持距第三方车辆的特定距离、加速度以及速度。因而,奖励函数代表驾驶员的理性操作并且可以将情况更好地概括为对驾驶行为的直接模仿。通过从这些行驶轨迹推导出的奖励函数的聚类而尤其不是这些行驶轨迹本身的聚类,可以有利地获得概括性结果。在另一优选的实施方式中规定:行驶轨迹包括机动车的运行数据和/或机动车的关于机动车的周围环境的参考数据,并且奖励函数考虑这些运行数据和/或参考数据。例如,从公开文献Kuderer,Markus,ShilpaGulati和WolframBurgard:“Learningdrivingstylesforautonomousvehiclesfromdemonstration.”2015IEEE,InternationalConferenceonRoboticsandAutomation(ICRA).IEEE,2015年示例性地公知可影响奖励函数的特征,如尤其是加速度、速度、距车道中线的距离。有利地,尤其是其它特征、如距第三方车辆、尤其是前车和/或其它车辆的距离、机动车与第三方车辆之间的相对速度可能有影响。在另一优选的实施方式中规定:针对特定于驾驶员类型的聚类,计算驾驶策略、尤其是特定于驾驶员类型的驾驶策略。在另一优选的实施方式中规定:特定于驾驶员类型的聚类的调节参数根据相应的聚类的奖励函数和/或根据机动车的运行数据和/或机动车的关于机动车的周围环境的参考数据来优化。有利地,这些调节参数可以在使用优化函数的情况下被优化。在示例性示出的优化函数中,rj描述了聚类j的奖励函数,θj描述了聚类j的控制器πθj的调节参数,而描述了关于将来的状态的分布,这些将来的状态包括由本车的前向模型所构成的状态以及参考对象、尤其是第三方车辆的行为,其中状态xt包括在时间点t的本车的状态以及参考对象、尤其是第三方车辆的状态。优化函数的解标识出如下参数θj,在所述参数的情况下,奖励函数最大并且因此关于在第一步骤中提取出的驾驶员的目标和诉求方面最佳。在另一优选的实施方式中规定:这些调节参数针对至少一种调节情况被优化。调节情况包括控制器的应用情况、英文Use-Case,例如距离调节、英文AdaptiveCruiseControl,ACC(自适应巡航控制)或者停车辅助或车道保持辅助、英文lanekeepingsupport,LKS。其它优选的实施方式涉及用于利用调节系统来对机动车进行调节的方法,其中该方法包括:提供特定于驾驶员类型的聚类的集合,相应的特定于驾驶员类型的聚类包括奖励函数和调节参数,其中特定于驾驶员类型的聚类和/或调节参数是按照根据这些实施方式中的至少一个实施方式的方法来确定的;观察驾驶员在机动车的行驶运行时的驾驶行为;基于所观察到的驾驶行为来从特定于驾驶员类型的聚类的集合中标识出特定于驾驶员类型的聚类;并且利用所标识出的特定于驾驶员类型的聚类的调节参数来对调节系统、尤其是调节系统的模型进行参数化。在另一优选的实施方式中规定:对聚类的标识包括:基于特定于驾驶员类型的聚类的奖励函数来对驾驶行为进行评估。有利地,为了对聚类进行标识,使用所推导出的奖励函数。驾驶员的行为、尤其是在特定时间段内的行为基于特定于驾驶员类型的聚类的奖励函数来评估并且特定于驾驶员类型的特定聚类依据平均奖励来选择。有利地,所选择的特定于驾驶员类型的聚类对函数进行优化,其中DD包含本车和前车的所观察到的共同状态。相对应地,选择具有尽可能类似的目标和诉求的驾驶员类型的特定于驾驶员类型的聚类。在另一优选的实施方式中规定:对特定于驾驶员类型的聚类的标识包括:基于驾驶员的驾驶策略来对驾驶行为进行评估。有利地,为了对聚类进行标识,使用在应用逆向强化学习方法的情况下学习的、尤其是特定于驾驶员类型的驾驶策略。驾驶员的行为本文档来自技高网...

【技术保护点】
1.一种用于使用机器学习来确定调节系统(100)、尤其是机动车(110)的调节系统(100)、尤其是用于调节所述机动车(110)的行驶运行的调节系统(100)的调节参数(θj)的方法(200),其中所述方法(200)包括:/n提供(210)行驶轨迹(D)的集合;/n在使用逆向强化学习方法的情况下从所述行驶轨迹(D)中推导(220)奖励函数(Rj);/n基于所述奖励函数(Rj)来推导(230)特定于驾驶员类型的聚类(Cj);/n针对相应的特定于驾驶员类型的聚类(cj)确定(240)调节参数(θj)。/n

【技术特征摘要】
20191213 DE 102019219534.21.一种用于使用机器学习来确定调节系统(100)、尤其是机动车(110)的调节系统(100)、尤其是用于调节所述机动车(110)的行驶运行的调节系统(100)的调节参数(θj)的方法(200),其中所述方法(200)包括:
提供(210)行驶轨迹(D)的集合;
在使用逆向强化学习方法的情况下从所述行驶轨迹(D)中推导(220)奖励函数(Rj);
基于所述奖励函数(Rj)来推导(230)特定于驾驶员类型的聚类(Cj);
针对相应的特定于驾驶员类型的聚类(cj)确定(240)调节参数(θj)。


2.根据权利要求1所述的方法(200),其中所述行驶轨迹(D)包括所述机动车(110)的运行数据和/或所述机动车(110)的关于所述机动车的周围环境的参考数据,而且所述奖励函数(rj)考虑所述运行数据和/或参考数据。


3.根据上述权利要求中至少任一项所述的方法(200),其中针对特定于驾驶员类型的聚类(cj)计算驾驶策略、尤其是特定于驾驶员类型的驾驶策略。


4.根据上述权利要求中至少任一项所述的方法(200),其中特定于驾驶员类型的聚类(cj)的调节参数(θj)根据相应的驾驶员类型的聚类(cj)的奖励函数(rj)和/或根据所述机动车(110)的运行数据和/或所述机动车(110)的关于所述机动车(110)的周围环境的参考数据被优化。


5.根据上述权利要求中至少任一项所述的方法(200),其中所述调节参数(θj)针对至少一种调节情况被优化。


6.一种用于利用调节系统(100)来对机动车(110)进行调节的方法(300),其中所述方法(300)包括:
提供(310)特定于驾驶员类型的聚类(Cj)的集合,相应的特定于驾驶员类型的聚类(cj)包括奖励函数(rj)和调节参数(...

【专利技术属性】
技术研发人员:B·阿尔特M·赫尔曼
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1