驾驶员行为建模系统技术方案

技术编号：19439942 阅读：23 留言：0更新日期：2018-11-14 14:10

本发明专利技术公开了一种驾驶员行为建模系统，具体包括特征提取器，提取构建回报函数特征；回报函数生成器，获取构建驾驶策略所需的回报函数；驾驶策略获取器，完成驾驶策略的构建；判定器，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准；最终获得描述真实驾驶示范的驾驶策略。本申请可以对于新的状态场景进行适用，来获得其对应动作，大大提高了建立的驾驶员行为模型的泛化能力，适用场景更广，鲁棒性更强。

全部详细技术资料下载

【技术实现步骤摘要】
驾驶员行为建模系统
本专利技术涉及一种建模方法，具体说是驾驶员行为建模系统。
技术介绍
自主驾驶作为智能交通领域的一个重要部分。受当前技术等原因，自主车依旧需要智能驾驶系统(智能辅助驾驶系统)和人类驾驶员相互协作以完成驾驶任务。而在这个过程中，无论是更好的量化驾驶员的信息以供智能系统决策，还是通过区分驾驶员的不同为人们提供个性化的服务，驾驶员建模都是必不可少的重要步骤。在当前有关驾驶员建模的方法中，强化学习方法因为对于驾驶员在车辆驾驶这样具有大规模连续空间以及多个优化目标的复杂序贯决策问题，有着很好的解决效果，于是也是一种针对驾驶员行为建模有效的方法。强化学习作为基于MDP的问题解决方法，需要和环境交互，采取行动以获取来自环境的评价性质的反馈信号即回报(reward)，并使长期的回报最大化。通过对于现有文献的检索发现，现有的对于驾驶员行为建模中，对于回报函数的设置方法，主要包括：传统的由研究人员手动针对不同场景状态进行设置的方法，以及借助逆向强化学习的方法来设置的方法。传统的方法对于研究人员的主观性依赖极大，回报函数的好坏取决于研究人员的能力与经验。同时因为在车辆行驶过程中，为了正确的设置回报函数，需要平衡大量的决策变量，这些变量存在极大的不可共度性甚至矛盾性，而研究人员往往无法设计出能够平衡各项需求的回报函数。而逆向强化学习借助驾驶示范数据，为各类驾驶特征分配适合的权重，可以自动学习得到所需要的回报函数，进而解决了原有的人为决策的不足。但传统逆向强化学习方法，只能对于驾驶示范数据中已存在的场景状态进行学习，而实际驾驶的时候，因为天气、景物等因素的不同，真...

【技术保护点】
1.驾驶员行为建模系统，其特征在于，具体包括：特征提取器，提取构建回报函数特征；回报函数生成器，获取驾驶策略；驾驶策略获取器，完成驾驶策略的构建；判定器，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准。

【技术特征摘要】
1.驾驶员行为建模系统，其特征在于，具体包括：特征提取器，提取构建回报函数特征；回报函数生成器，获取驾驶策略；驾驶策略获取器，完成驾驶策略的构建；判定器，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准。2.根据权利要求1所述驾驶员行为建模系统，其特征在于，特征提取器提取构建回报函数特征的具体实现过程是：S11.在车辆行驶过程中，利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样，获得N组不同车辆驾驶环境道路情况的图片和对应的转向角情况；同时对应驾驶操作数据，联合构建起来训练数据；S12.对收集来的图片进行平移、裁剪、变更亮度操作，以模拟不同光照和天气的场景；S13.构建卷积神经网络，将经过处理后的图片作为输入，对应图片的操作数据作为标签值，进行训练，采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数；S14.将训练完成后的卷积神经网络的网络结构和权值保存，以建立新的一个卷积神经网络，完成状态特征提取器。3.根据权利要求2所述驾驶员行为建模系统，其特征在于，步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层；输入层依次连接第一个卷积层、第一个池化层，然后连接第二个卷积层、第二个池化层，再连接第三个卷积层、第三个池化层，最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。4.根据权利要求2所述驾驶员行为建模系统，其特征在于，步骤S14中的训练完成后的卷积神经网络不包括输出层。5.根据权利要求1所述驾驶员行为建模系统，其特征在于，回报函数生成器获取驾驶策略具体实现过程是：S21.获得专家的驾驶示范数据：驾驶示范数据来自对于示范驾驶视频数据的采样提取，按照一定频率对一段连续的驾驶视频进行采样，得到一组轨迹示范；一个专家示范数据包括多条轨迹，总体记做：DE＝{(s1,a1),(s2,a2),...,(sM,aM)}其中DE表示整体的驾驶示范数据，(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对，M代表总共的驾驶示范数据的个数，NT代表驾驶示范轨迹数目，Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数；S22.求取驾驶示范的特征期望值；首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入状态特征提取器中，获得对应状态st下的特征情况f(st,at)，f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值，然后基于下述公式计算出来驾驶示范的特征期望值：其中γ为折扣因子，根据问题的不同，对应进行设置；S23.求取贪婪策略下的状态-动作集；S24.求取回报函数的权值。6.根据权利要求5所述驾驶员行为建模系统，其特征在于，求取贪婪策略下的状态-动作集的具体步骤是：由于回报函数生成器与驾驶策略获取器是循环的两部分；首先，获取驾驶策略获取器中的神经网络：把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at)，输入神经网络，得到输出gw(st)；gw(st)是关于描述状态st的一组Q值集合，即[Q(st,a1),...,Q(st,an)]T，而Q(st,ai)代表状态-动作值，用于描述在当前驾驶场景状态st下，选取决策驾驶动作ai的优劣，基于公式Q(s,a)＝θ·μ(s,a)进行求得，该公式中的θ代指当前回报函数中的权值，μ(s,a)代指特征期望值。然后基于ε-greedy策略，进行选取描述驾驶场景状态st对应的驾驶决策动作选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作否则，则随机选取选取完之后，记录此时的如此对于驾驶示范DE中的每个状态的状态特征f(st,at)，输入该神经网络，共获取得到M个状态-动作对(st,at)，其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at；同时基于动作选取的情况，获取了M个对应状态-动作对的Q值，记做Q。7.根据权利要求5所述驾驶员行为建模系统，其特征在于，求取回报函...

【专利技术属性】
技术研发人员：邹启杰，李昊宇，裴腾达，
申请(专利权)人：大连大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人