【技术实现步骤摘要】
一种车辆行驶决策模型的训练方法及装置
本说明书涉及无人驾驶
,尤其涉及一种车辆行驶决策模型的训练方法及装置。
技术介绍
目前,车辆的智能化作为人工智能技术的重要组成部分,在社会生产、生活中的作用日益凸显,成为引导交通技术发展的主要方向之一。在现有技术中,无人车及具有辅助驾驶功能的车辆(以下统称“车辆”)多采用预设的决策模型,根据对车辆所处的环境的分析,得出与该环境相适应的行驶决策,使得车辆能够根据该行驶决策行驶。可见,决策模型的训练决定了决策模型所输出的行驶决策的准确性。当前,在决策模型的训练过程中,需要根据大量的已知专家数据对模型进行训练。专家数据一般包括各个时间点的车辆的动作以及车辆所处的环境,可以以车辆当前时刻的动作和车辆当前所处环境为输入,以下一时刻车辆的动作为标签,对模型进行训练。然而,在实际操作过程中,由于专家数据的获取比较复杂,获取之后还需要人工筛选专家数据以及对专家数据做标签等处理,导致工作量很大。而且,如果仅根据专家数据对模型进行训练,会使得训练的决策模型对专家数据的依赖性较强 ...
【技术保护点】
1.一种车辆行驶决策模型的训练方法,其特征在于,包括:/n将历史数据中的实际环境信息输入到预先训练的第一生成式对抗网络GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息;/n将所述虚拟环境信息输入到第一GAN中的第一判别器,使所述第一判别器判断所述虚拟环境信息是否为实际环境信息;/n将所述第一判别器判定为实际环境信息的虚拟环境信息作为样本环境信息,并输入到预先训练的第二GAN中的第二生成器,得到所述第二生成器输出的对应于所述样本环境信息的各虚拟行驶决策;/n将所述各虚拟行驶决策输入到所述第二GAN中的第二判别器,使所述第二判别器分别判断每个虚拟行驶决策是否与所述样本 ...
【技术特征摘要】
1.一种车辆行驶决策模型的训练方法,其特征在于,包括:
将历史数据中的实际环境信息输入到预先训练的第一生成式对抗网络GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息;
将所述虚拟环境信息输入到第一GAN中的第一判别器,使所述第一判别器判断所述虚拟环境信息是否为实际环境信息;
将所述第一判别器判定为实际环境信息的虚拟环境信息作为样本环境信息,并输入到预先训练的第二GAN中的第二生成器,得到所述第二生成器输出的对应于所述样本环境信息的各虚拟行驶决策;
将所述各虚拟行驶决策输入到所述第二GAN中的第二判别器,使所述第二判别器分别判断每个虚拟行驶决策是否与所述样本环境信息相匹配;
将所述第二判别器判定为与所述样本环境信息相匹配的虚拟行驶决策作为样本行驶决策;
根据所述样本环境信息以及与所述样本环境信息相匹配的样本行驶决策,对待训练的车辆行驶决策模型进行训练。
2.如权利要求1所述的方法,其特征在于,将历史数据中的实际环境信息输入到预先训练的第一生成式对抗网络GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息,具体包括:
对历史数据中的实际环境信息加扰;
将加扰后的实际环境信息输入到预先训练的第一GAN中的第一生成器,得到所述第一生成器输出的虚拟环境信息。
3.如权利要求1所述的方法,其特征在于,预先训练所述第一GAN,具体包括:
将历史数据中的实际环境信息输入到待训练的所述第一GAN中的第一生成器,得到待训练的第一生成器输出的虚拟环境信息;
将所述待训练的第一生成器输出的虚拟环境信息输入到待训练的所述第一GAN中的第一判别器,使待训练的第一判别器判断所述待训练的第一生成器输出的虚拟环境信息是否为实际环境信息;
以所述待训练的第一生成器输出的虚拟环境信息被所述待训练的第一判别器判定为实际环境信息的概率最大,且,所述待训练的第一判别器判定所述待训练的第一生成器输出的虚拟环境信息为实际环境信息的概率最小,为训练目标,对所述第一GAN进行训练,直至所述待训练的第一生成器与所述待训练的第一判别器达到纳什平衡。
4.如权利要求1或3所述的方法,其特征在于,预先训练所述第二GAN,具体包括:
将所述第一判别器判定为实际环境信息的虚拟环境信息作为样本环境信息,并输入到待训练的所述第二GAN中的第二生成器,得到待训练的第二生成器输出的对应于所述样本环境信息的各虚拟行驶决策;
将所述待训练的第二生成器输出的对应于所述样本环境信息的各虚拟行驶决策输入到待训练的所述第二GAN中的第二判别器,使待训练的第二判别器分别判断每个虚拟行驶决策是否与所述样本环境信息相匹配;
以所述待训练的第二生成器输出的对应于所述样本环境信息的每个虚拟行驶决策被所述待训练的第二判别器判定为与所述样本环境...
【专利技术属性】
技术研发人员:付圣,靳越翔,任冬淳,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。