【技术实现步骤摘要】
优化决策规控的方法、控制车辆行驶的方法和相关装置
[0001]本申请涉及自动驾驶领域,更具体地,涉及优化优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]自动驾驶是人工智能领域的一种主流应用。自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作,让机动车辆可以在不需要人类主动操作下,实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助将乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如,领航员、驾驶员或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自东驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆,所以理论上能够有效避免人类的驾驶失误,减少交通事故的发生,且能够提高公路的运输效率。因此,自动驾驶技术越来越受到重视。
[0004]自动驾驶技术中提出了一种采用自 ...
【技术保护点】
【技术特征摘要】
1.一种优化决策规控的方法,其特征在于,应用在决策控制系统,所述决策控制系统包括行为决策层和运动规划层,所述方法包括:获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息;对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合,得到第一行驶序列;获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列;对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合,得到第二行驶序列;根据所述第一行驶序列与预设的目标示教行驶序列之间的差异,对所述行为决策层进行优化,所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息;根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一行驶序列与目标示教行驶序列之间的差异,对所述行为决策层进行优化,包括:获取判别模型输入所述第一行驶序列时的第一输出,所述判别模型用于判断输入的行驶序列是否为示教行驶序列;并根据所述第一输出对所述行为决策层进行优化;所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化,包括:获取所述判别模型输入所述第二行驶序列时的第二输出;根据所述第二输出对所述运动规划层进行优化;并且,所述方法还包括:获取所述判别模型输入所述目标示教行驶序列时的第三输出;根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二输出对所述运动规划层进行优化,包括:使用策略优化法,基于所述第二输出,对所述运动规划层进行优化。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一输出对所述行为决策层进行优化,包括:获取第一函数的梯度,并使用梯度下降法根据所述第一函数的梯度对所述行为决策层进行优化,所述第一函数的自变量包括所述第一输出。5.根据权利要求4所述的方法,其特征在于,所述第一函数的表达式为:其中,N表示预设的根据所述第一函数的梯度优化所述行为决策层的次数,ω为预设的值,T
j
表示所述第一轨迹序列的长度,表示所述第一输出,λ
E
为预设的值,表示所述N次优化中的第j次优化时所对应的示教行驶行为,表示所述行为决策层的输入为所述示教轨迹序列时所述行为决策层输出行驶行为的条件概率,λ
G
为预设的值。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化,包括:获取第二函数的梯度,并使用梯度上升法根据所述第二函数的梯度,对所述判别模型进行优化,所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。7.根据权利要求6所述的方法,其特征在于,所述第二函数的表达式为:其中,N
e
表示所述示教轨迹序列的长度,表示所述第三输出,N表示预设的优化所述判别模型的次数,ω为预设的值,T
j
表示所述第一轨迹序列的长度,表示所述第二输出,表示所述第一输出。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述目标示教驾驶序列是从预先配置的示教数据集中选取的,所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列;其中,所述方法还包括:更新所述示教数据集,更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。10.一种基于决策控制系统控制车辆行驶的方法,其特征在于,所述决策控制系统包括行为决策层和运动规划层,所述决策控制系统是使用如权利要求1至9中任一项所述的方法优化得到的,所述方法包括:使用所述行为决策层,基于车辆的环境信息,输出所述车辆的目标驾驶行为信息;使用所述运动规划层,基于所述目标驾驶行为信息,输出所述车辆的轨迹信息;根据所述轨迹信息控制所述车辆行驶。11.一种优化决策规控的装置,其特征在于,所述装置包括:获取模块,用于获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;所述获取模块还用于获取决策控制系统的行为决策层基于所述第一环境的信息输...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。