具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆技术

技术编号:39304214 阅读:9 留言:0更新日期:2023-11-12 15:53
本公开提供一种具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆。涉及自动驾驶技术领域。模型包括驾驶能力和连接的多模态编码层和解码层。方法包括:获取真实驾驶数据、真实自动驾驶策略信息以及真实干预和评价反馈信息;将真实驾驶数据输入多模态编码层,解码层基于多模态编码层的输出进行预测;基于预测和真实的自动驾驶策略信息以及干预和评价反馈信息,调整自动驾驶模型参数。由此,基于真实驾驶数据和相应的真实干预、评价反馈信息进行模型训练,使得基于模型的自动驾驶能力能够很好对齐到人类乘客期待的安全、舒适及高效乘车体验,实现具备人类专家驾驶能力的自动驾驶模型和车辆。型和车辆。型和车辆。

【技术实现步骤摘要】
具备人类专家驾驶能力的自动驾驶模型、训练方法和车辆


[0001]本公开涉及计算机
,尤其涉及自动驾驶和人工智能
,具体涉及一种自动驾驶模型的训练方法、自动驾驶模型、利用自动驾驶模型实现的自动驾驶方法、自动驾驶模型的训练装置、基于自动驾驶模型的自动驾驶装置、电子设备、计算机可读存储介质、计算机程序产品和自动驾驶车辆。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]自动驾驶技术融合了识别、决策、定位、通信安全和人机交互等诸多方面的技术。通过人工智能学习能够辅助生成自动驾驶策略。
[0004]相关技术中,自动驾驶模型通过行为模仿学习方法来学习驾驶能力,不能很好地对齐人类乘客的体验。
[0005]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0006]本公开提供了一种自动驾驶模型的训练方法、自动驾驶模型、利用自动驾驶模型实现的自动驾驶方法、自动驾驶模型的训练装置、基于自动驾驶模型的自动驾驶装置、电子设备、计算机可读存储介质、计算机程序产品和自动驾驶车辆。
[0007]根据本公开的一方面,提供了一种自动驾驶模型的训练方法。自动驾驶模型包括多模态编码层、解码层和驾驶能力评价模型,所述多模态编码层和解码层连接组成端到端的神经网络模型,以使得所述解码层直接基于所述多模态编码层的输出预测自动驾驶策略信息。所述方法包括第一训练,第一训练包括:获取车辆行驶过程中的多个第一真实驾驶数据、与所述第一真实驾驶数据相对应的第一真实自动驾驶策略信息,以及针对所述第一真实自动驾驶策略信息的第一真实干预信息和第一真实评价反馈信息,其中所述第一真实驾驶数据包括车辆的第一导航信息和针对车辆周围环境的第一真实感知信息,所述第一真实感知信息包括针对车辆周围环境的当前感知信息和历史感知信息;将包括所述第一真实驾驶数据的第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;将包括所述第一样本隐式表示的第一中间样本输入信息输入所述解码层,以获取所述解码层所输出的第一预测自动驾驶策略信息;将所述第一中间样本输入信息输入驾驶能力评价模型,以获取所述驾驶能力评价模型所输出的第一预测干预信息和第
一预测评价反馈信息;基于所述第一真实干预信息、所述第一预测干预信息、所述第一真实评价反馈信息和所述第一预测评价反馈信息调整所述驾驶能力评价模型的参数;以及基于所述第一预测干预信息、所述第一预测评价反馈信息、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数。
[0008]根据本公开的另一方面,提供了一种利用上述训练方法训练得到的自动驾驶模型,包括多模态编码层和解码层,所述多模态编码层和解码层连接组成端到端的神经网络模型,以使得所述解码层直接基于所述多模态编码层的输出预测自动驾驶策略信息,其中,所述多模态编码层的第一输入信息包括目标车辆的导航信息和利用传感器所获得的目标车辆周围环境的感知信息,所述感知信息包括在车辆的行驶过程中针对所述目标车辆周围环境的当前感知信息和历史感知信息,所述多模态编码层被配置用于获取所述第一输入信息相对应的隐式表示,所述解码层的第二输入信息包括所述隐式表示,所述解码层被配置用于基于所述第二输入信息获取目标自动驾驶策略信息。
[0009]根据本公开的另一方面,提供了一种利用自动驾驶模型实现的自动驾驶方法,包括:利用上述自动驾驶模型控制目标车辆执行自动驾驶;以及获取在自动驾驶过程中的真实驾驶数据、与所述真实驾驶数据相对应的真实自动驾驶策略信息,以及针对所述真实自动驾驶策略信息的真实干预信息和真实评价反馈信息,其中,所述真实驾驶数据包括所述目标车辆的导航信息和针对目标车辆周围环境的真实感知信息,所述真实驾驶数据用于对所述自动驾驶模型进行迭代训练。
[0010]根据本公开的另一方面,提供了一种自动驾驶模型的训练装置。所述自动驾驶模型包括驾驶能力评价模型、多模态编码层和解码层,所述多模态编码层和解码层连接组成端到端的神经网络模型,以使得所述解码层直接基于所述多模态编码层的输出预测自动驾驶策略信息,所述装置被配置为执行第一训练,并且包括:第一真实驾驶数据获取单元,被配置为获取车辆行驶过程中的多个第一真实驾驶数据、与所述第一真实驾驶数据相对应的第一真实自动驾驶策略信息,以及针对所述第一真实自动驾驶策略信息的第一真实干预信息和第一真实评价反馈信息,其中所述第一真实驾驶数据包括车辆的第一导航信息和针对车辆周围环境的第一真实感知信息,所述第一真实感知信息包括针对车辆周围环境的当前感知信息和历史感知信息;多模态编码层训练单元,被配置为将包括所述第一真实驾驶数据的第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;解码层训练单元,被配置为将包括所述第一样本隐式表示的第一中间样本输入信息输入所述解码层,以获取所述解码层所输出的第一预测自动驾驶策略信息;驾驶能力评价模型训练单元,被配置为将所述第一中间样本输入信息输入驾驶能力评价模型,以获取所述驾驶能力评价模型所输出的第一预测干预信息和第一预测评价反馈信息;解码层训练单元,被配置为将包括所述第一样本隐式表示的第一中间样本输入信息输入所述解码层,以获取所述解码层所输出的第一预测自动驾驶策略信息;以及参数调整单元,被配置为基于所述第一真实干预信息、所述第一预测干预信息、所述第一真实评价反馈信息和所述第一预测评价反馈信息调整所述驾驶能力评价模型的参数,以及基于所述第一预测干预信息、所述第一预测评价反馈信息、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数。
[0011]根据本公开的另一方面,提供了一种基于自动驾驶模型的自动驾驶装置,包括:控
制单元,被配置为利用上述自动驾驶模型控制目标车辆执行自动驾驶;以及第二真实驾驶数据获取单元,被配置为获取在自动驾驶过程中的真实驾驶数据、与所述真实驾驶数据相对应的真实自动驾驶策略信息,以及针对所述真实自动驾驶策略信息的真实干预信息和真实评价反馈信息,其中,所述真实驾驶数据包括所述目标车辆的导航信息和针对目标车辆周围环境的真实感知信息,所述真实驾驶数据用于对所述自动驾驶模型进行迭代训练。
[0012]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;存储器存储有可被所述至少一个处理器执行的指令,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶模型的训练方法,所述自动驾驶模型包括多模态编码层、解码层和驾驶能力评价模型,所述多模态编码层和解码层连接组成端到端的神经网络模型,以使得所述解码层直接基于所述多模态编码层的输出预测自动驾驶策略信息,所述方法包括第一训练,其中,所述第一训练包括:获取车辆行驶过程中的多个第一真实驾驶数据、与所述第一真实驾驶数据相对应的第一真实自动驾驶策略信息,以及针对所述第一真实自动驾驶策略信息的第一真实干预信息和第一真实评价反馈信息,其中所述第一真实驾驶数据包括车辆的第一导航信息和针对车辆周围环境的第一真实感知信息,所述第一真实感知信息包括针对车辆周围环境的当前感知信息和历史感知信息;将包括所述第一真实驾驶数据的第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示;将包括所述第一样本隐式表示的第一中间样本输入信息输入所述解码层,以获取所述解码层所输出的第一预测自动驾驶策略信息;将所述第一中间样本输入信息输入驾驶能力评价模型,以获取所述驾驶能力评价模型所输出的第一预测干预信息和第一预测评价反馈信息;基于所述第一真实干预信息、所述第一预测干预信息、所述第一真实评价反馈信息和所述第一预测评价反馈信息调整所述驾驶能力评价模型的参数;以及基于所述第一预测干预信息、所述第一预测评价反馈信息、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数。2.根据权利要求1所述的方法,其中,所述第一真实评价反馈信息包括以下各项中的至少一者:驾驶舒适度信息、驾驶安全性信息、驾驶效率、是否文明使用行车灯、驾驶行为来源信息、是否违反交通规则信息。3.根据权利要求1所述的方法,其中,所述第一训练还包括:获取针对所述车辆周围环境的第一未来真实信息,其中,所述解码层的输出还包括针对所述车辆周围环境的第一未来预测信息,并且基于所述第一预测干预信息、所述第一预测评价反馈信息、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数包括:基于所述第一未来真实信息、第一未来预测信息、所述第一预测干预信息、所述第一预测评价反馈信息、所述第一预测自动驾驶策略信息和第一真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数。4.根据权利要求3所述的方法,其中,所述第一未来真实信息包括针对所述车辆周围环境的未来真实感知信息、和/或与所述未来真实感知信息相对应的未来真实隐式表示。5.根据权利要求1

4中任一项所述的方法,还包括在所述第一训练之后的第二训练,其中,所述第二训练包括:获取车辆行驶过程中的多个第二真实驾驶数据、与所述第二真实驾驶数据相对应的第二真实自动驾驶策略信息,以及针对所述第二真实驾驶数据的第二真实干预信息和第二真实评价反馈信息,其中所述第二真实驾驶数据包括车辆的第二导航信息和针对车辆周围环
境的第二真实感知信息,所述第二真实感知信息包括针对车辆周围环境的当前感知信息和历史感知信息;将包括所述第二真实驾驶数据的第二样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第二样本隐式表示;将包括所述第二真实驾驶数据相对应的第二样本隐式表示的第二中间样本输入信息输入所述解码层,以获取所述解码层所输出的第二预测自动驾驶策略信息;将所述第二样本隐式表示输入所述驾驶能力评价模型,以获取所述驾驶能力评价模型所输出的针对所述第二预测自动驾驶策略信息的第二预测评价反馈信息;基于所述第二真实干预信息、所述第二预测干预信息、所述第二真实评价反馈信息和所述第二预测评价反馈信息调整所述驾驶能力评价模型的参数;以及基于所述第二预测干预信息、所述第二预测评价反馈信息、所述第二预测自动驾驶策略信息和所述第二真实自动驾驶策略信息,调整所述多模态编码层和解码层的参数。6.根据权利要求1

5中任一项所述的方法,其中,所述真实干预信息包括真实干预决策信息,所述真实干预决策信息指示是否进行人工干预以及进行人工干预的真实干预时间,所述预测干预信息包括预测干预决策信息,所述预测干预决策信息指示是否进行人工干预以及进行人工干预的预测干预时间。7.根据权利要求1

6中任一项所述的方法,其中,所述真实干预信息包括真实干预标识,所述真实干预标识能够表征所述第一真实自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息,所述预测干预信息包括预测干预标识,所述预测干预标识能够表征所述预测自动驾驶策略信息是否为存在人为干预的自动驾驶策略信息。8.根据权利要求1

7中任一项所述的方法,其中,将包括所述第一真实驾驶数据的第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示包括:基于所述第一真实评价反馈信息,对所述多个第一真实驾驶数据进行分类;基于所述分类的结果,从所述多个第一真实驾驶数据中进行采样,得到多个第一样本驾驶数据;以及将包括所述第一样本驾驶数据的第一样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第一样本隐式表示。9.根据权利要求8所述的方法,其中,真实驾驶数据基于真实评价反馈信息具有多个类别,所述多个第一样本驾驶数据中所述多个类别分别对应的第一样本驾驶数据的数量之间的差值小于预设阈值。10.根据权利要求1

9中任一项所述的方法,还包括:在所述第一训练之前,对所述多模态编码层和解码层进行离线预训练,以使得所述自动驾驶模型能够基于输入的所述第一样本输入信息获取所述第一预测自动驾驶策略信息;其中,所述第一训练还包括:利用离线预训练获得的自动驾驶模型执行自动驾驶,并且在该自动驾驶过程中获取所述第一真实自动驾驶数据和与所述第一真实驾驶数据相对应的第一真实自动驾驶策略信息,以及针对所述第一真实自动驾驶策略信息的第一真实干预信息和第一真实评价反馈信息。
11.根据权利要求10所述的方法,其中,所述离线预训练包括:获取第三样本驾驶数据和与所述第三样本驾驶数据相对应的第三真实自动驾驶策略信息,所述第三样本驾驶数据包括样本车辆的样本导航信息和针对所述样本车辆周围环境的样本感知信息,所述样本感知信息包括针对样本车辆周围环境的当前样本感知信息和历史样本感知信息;将包括所述第三样本驾驶数据的第三样本输入信息输入所述多模态编码层,以获取所述多模态编码层所输出的第三样本隐式表示;将包括所述第三...

【专利技术属性】
技术研发人员:黄际洲王凡
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1