自动驾驶决策模型的训练方法、车辆控制方法和装置制造方法及图纸

技术编号：37976659 阅读：16 留言：0更新日期：2023-06-30 09:51

本公开提供了一种自动驾驶决策模型的训练方法、车辆控制方法和装置，涉及人工智能技术领域，尤其涉及深度学习、强化学习、自动驾驶、智能交通技术领域。具体实现方案为：获取第一交通场景中车辆的第一车辆状态信息和第一环境信息；使用自动驾驶决策模型对第一车辆状态信息和第一环境信息进行多次处理，得到第一交通场景下针对车辆的多个第一控制策略；其中，自动驾驶决策模型是根据第二交通场景中车辆的第二车辆状态信息和第二环境信息训练得到的；根据多个第一控制策略训练初始评价模型，得到目标评价模型；以及根据目标评价模型对自动驾驶决策模型进行训练。对自动驾驶决策模型进行训练。对自动驾驶决策模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
自动驾驶决策模型的训练方法、车辆控制方法和装置

[0001]本公开涉及人工智能
，尤其涉及深度学习、强化学习、自动驾驶、智能交通
，具体涉及一种自动驾驶决策模型的训练方法和装置、一种车辆控制方法、装置、电子设备、存储介质及自动驾驶车辆。

技术介绍

[0002]当自动驾驶车辆在某一交通场景中行驶时，需要根据车辆状态信息和周边环境信息来实时地做出决策，提供针对自动驾驶车辆的控制策略，以便根据控制策略对自动驾驶车辆的行驶状态进行控制。
[0003]针对某一交通场景下的路况，车辆往往不只有一种正确的驾驶方式。但是，相关技术在根据车辆状态信息和周边环境信息做出决策时，只能提供单一的控制策略，而非最佳的控制策略，使得自动驾驶车辆在应对该交通场景下的路况时表现欠佳。

技术实现思路

[0004]本公开提供了一种自动驾驶决策模型的训练方法和装置、一种车辆控制方法、装置、电子设备、存储介质及自动驾驶车辆。
[0005]根据本公开的一方面，提供了一种自动驾驶决策模型的训练方法，包括：获取第一交通场景中车...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶决策模型的训练方法，包括：获取第一交通场景中车辆的第一车辆状态信息和第一环境信息；使用自动驾驶决策模型对所述第一车辆状态信息和所述第一环境信息进行多次处理，得到第一交通场景下针对所述车辆的多个第一控制策略；其中，所述自动驾驶决策模型是根据第二交通场景中车辆的第二车辆状态信息和第二环境信息训练得到的；根据所述多个第一控制策略训练初始评价模型，得到目标评价模型；以及根据所述目标评价模型对所述自动驾驶决策模型进行训练。2.根据权利要求1所述的方法，其中，所述根据所述多个第一控制策略训练初始评价模型，得到目标评价模型包括：对所述多个第一控制策略进行排序，得到排序结果；以及基于所述排序结果，对所述初始评价模型进行训练，得到所述目标评价模型。3.根据权利要求2所述的方法，其中，所述基于所述排序结果，对所述初始评价模型进行训练，得到所述目标评价模型包括：基于所述排序结果，从所述多个第一控制策略中确定具有关联关系的第一样本控制策略和第二样本控制策略；使用所述初始评价模型分别处理所述第一样本控制策略和所述第二样本控制策略，得到与所述第一样本控制策略对应的第一评价参数以及与所述第二样本控制策略对应的第二评价参数；根据所述第一评价参数和所述第二评价参数，确定评价参数损失；以及根据所述评价参数损失，调整所述初始评价模型的参数，得到所述目标评价模型。4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述目标评价模型对所述自动驾驶决策模型进行训练包括：获取第三交通场景中车辆的第三车辆状态信息和第三环境信息；使用所述自动驾驶决策模型对所述第三车辆状态信息和所述第三环境信息进行处理，得到第三交通场景下针对所述车辆的第三控制策略；使用所述目标评价模型对所述第三控制策略进行处理，得到与所述第三控制策略对应的目标评价参数；以及根据所述目标评价参数调整所述自动驾驶决策模型的参数。5.根据权利要求1至4中任一项所述的方法，还包括：获取第二交通场景中车辆的第二车辆状态信息和第二环境信息，以及所述第二交通场景下针对车辆的控制策略标签；将所述第二车辆状态信息和所述第二环境信息输入初始深度学习模型，得到所述第二交通场景下针对所述车辆的第二控制策略；根据所述第二控制策略和所述控制策略标签，确定控制策略损失；以及根据所述控制策略损失，调整所述初始深度学习模型的参数，得到所述自动驾驶决策模型。6.一种车辆控制方法，包括：获取交通场景中车辆的车辆状态信息和环境信息；利用自动驾驶决策模型处理所述车辆状态信息和所述环境信息，得到所述交通场景下
针对所述车辆的控制策略；其中，所述自动驾驶决策模型是根据权利要求1至5中任一项所述的方法训练得到的；以及基于所述控制策略对所述车辆进行控制。7.一种自动驾驶决策模型的训练装置，包括：第一获取模块，用于获取第一交通场景中车辆的第一车辆状态信息和第一环境信息；第一处理模块，用于使用自动驾驶决策模型对所述第一车辆状态信息和所述第一环境信息进行多次处理，得到第一交通场景下针对所述车辆的多个第一控制策略；其中，所述自动驾驶决策模型是根据第二交通场景中车辆的第二车辆状态信息和第二环境信息训练得到的；第一训练模块，用于根据所述多个第一控制...

【专利技术属性】
技术研发人员：郑欣悦，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人