当前位置: 首页 > 专利查询>大连大学专利>正文

驾驶员行为建模系统技术方案

技术编号:19439942 阅读:23 留言:0更新日期:2018-11-14 14:10
本发明专利技术公开了一种驾驶员行为建模系统,具体包括特征提取器,提取构建回报函数特征;回报函数生成器,获取构建驾驶策略所需的回报函数;驾驶策略获取器,完成驾驶策略的构建;判定器,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准;最终获得描述真实驾驶示范的驾驶策略。本申请可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。

【技术实现步骤摘要】
驾驶员行为建模系统
本专利技术涉及一种建模方法,具体说是驾驶员行为建模系统。
技术介绍
自主驾驶作为智能交通领域的一个重要部分。受当前技术等原因,自主车依旧需要智能驾驶系统(智能辅助驾驶系统)和人类驾驶员相互协作以完成驾驶任务。而在这个过程中,无论是更好的量化驾驶员的信息以供智能系统决策,还是通过区分驾驶员的不同为人们提供个性化的服务,驾驶员建模都是必不可少的重要步骤。在当前有关驾驶员建模的方法中,强化学习方法因为对于驾驶员在车辆驾驶这样具有大规模连续空间以及多个优化目标的复杂序贯决策问题,有着很好的解决效果,于是也是一种针对驾驶员行为建模有效的方法。强化学习作为基于MDP的问题解决方法,需要和环境交互,采取行动以获取来自环境的评价性质的反馈信号即回报(reward),并使长期的回报最大化。通过对于现有文献的检索发现,现有的对于驾驶员行为建模中,对于回报函数的设置方法,主要包括:传统的由研究人员手动针对不同场景状态进行设置的方法,以及借助逆向强化学习的方法来设置的方法。传统的方法对于研究人员的主观性依赖极大,回报函数的好坏取决于研究人员的能力与经验。同时因为在车辆行驶过程中,为了正确的设置回报函数,需要平衡大量的决策变量,这些变量存在极大的不可共度性甚至矛盾性,而研究人员往往无法设计出能够平衡各项需求的回报函数。而逆向强化学习借助驾驶示范数据,为各类驾驶特征分配适合的权重,可以自动学习得到所需要的回报函数,进而解决了原有的人为决策的不足。但传统逆向强化学习方法,只能对于驾驶示范数据中已存在的场景状态进行学习,而实际驾驶的时候,因为天气、景物等因素的不同,真实驾驶场景往往超越驾驶示范范围。因而,逆向强化学习的方法解决将驾驶示范数据中场景和决策动作的关系表现出泛化能力不足的问题。现有基于强化学习理论的驾驶员行为建模方法主要有两种思路:思路一,采用传统强化学习的方法,其回报函数的设置依赖研究人员对于场景的分析、整理、筛选和归纳,进而获得到一系列驾驶决策有关的特征,如:车前距、是否远离路缘、是否远离行人、合理速度、变道频率等;再根据驾驶场景需求,设计一系列的实验来求取这些特征在对应场景环境下的回报函数中的权重占比,最后完成对于回报函数的整体设计,而作为描述驾驶员驾驶行为的模型。思路二,基于概率模型建模方法,采用最大熵逆向强化学习求解驾驶行为特征函数。首先假定存在潜在的、特定的一个概率分布,产生了驾驶的示范轨迹;进而,需要来找到一个能够拟合驾驶示范的概率分布,而求取这个概率分布的问题可转化为非线性规划问题,即:max-plogp∑P=1P代指的就是示范轨迹的概率分布,通过上面的式子求解得到概率分布后,由求取得到相关参数,即可求得回报函数r=θTf(st)。传统的驾驶员驾驶行为模型,利用已知驾驶数据分析、描述和推理驾驶行为,然而已采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征,更不可能获取全部状态对应动作的情况。在实际驾驶场景下,因为天气、场景、物体的不同,驾驶状态有着众多可能,遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱,模型假设条件多,鲁棒性差。其次,在实际的驾驶问题中,仅凭研究人员设置回报函数的方法,需要平衡太多对于各种特征的需求,全完全依赖研究人员的经验设置,反复手动调解,耗时耗力,更致命的是过于主观。在不同场景和环境下,研究人员则需要面对太多的场景状态;同时,即使是针对某一个确定的场景状态,需求的不同,也会导致驾驶行为特征的变化。为了准确描述该驾驶任务就要分配一系列权重以准确描述这些因素。现有方法中,基于概率模型的逆向强化学习主要从现有的示范数据出发,把示范数据作为已有数据,进而寻求对应当前数据的分布情况,基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布,正确获取分布,需要获取全部状态对应动作的情况。
技术实现思路
为解决驾驶员建模泛化性弱的问题,即现有技术中所存在的对于驾驶场景不在示范数据的情况下,无法建立对应的回报函数来进行驾驶员行为建模的技术问题,本申请提供了驾驶员行为建模系统,可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。为了实现上述目的,本专利技术方案的技术要点是:驾驶员行为建模系统,具体包括:特征提取器,提取构建回报函数特征;回报函数生成器,获取驾驶策略;驾驶策略获取器,完成驾驶策略的构建;判定器,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准;最终获得描述真实驾驶示范的驾驶策略。进一步地,特征提取器提取构建回报函数特征的具体实现过程是:S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片;同时对应驾驶操作数据,即该道路环境下的转向角情况,联合构建起来训练数据;S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。进一步地,步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。进一步地,步骤S14中的训练完成后的卷积神经网络不包括输出层。进一步地,回报函数生成器获取驾驶策略具体实现过程是:S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;S22.求取驾驶示范的特征期望值;首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:其中γ为折扣因子,根据问题的不同,对应进行设置;S23.求取贪婪策略下的状态-动作集;S24.求取回报函数的权值。更进一步地,求取贪婪策略下的状态-动作集的具体步骤是:由于回报函数生成器与驾驶策略获取器是循环的两部分;首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at)输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(s本文档来自技高网
...

【技术保护点】
1.驾驶员行为建模系统,其特征在于,具体包括:特征提取器,提取构建回报函数特征;回报函数生成器,获取驾驶策略;驾驶策略获取器,完成驾驶策略的构建;判定器,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准。

【技术特征摘要】
1.驾驶员行为建模系统,其特征在于,具体包括:特征提取器,提取构建回报函数特征;回报函数生成器,获取驾驶策略;驾驶策略获取器,完成驾驶策略的构建;判定器,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准。2.根据权利要求1所述驾驶员行为建模系统,其特征在于,特征提取器提取构建回报函数特征的具体实现过程是:S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片和对应的转向角情况;同时对应驾驶操作数据,联合构建起来训练数据;S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。3.根据权利要求2所述驾驶员行为建模系统,其特征在于,步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。4.根据权利要求2所述驾驶员行为建模系统,其特征在于,步骤S14中的训练完成后的卷积神经网络不包括输出层。5.根据权利要求1所述驾驶员行为建模系统,其特征在于,回报函数生成器获取驾驶策略具体实现过程是:S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:DE={(s1,a1),(s2,a2),...,(sM,aM)}其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;S22.求取驾驶示范的特征期望值;首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:其中γ为折扣因子,根据问题的不同,对应进行设置;S23.求取贪婪策略下的状态-动作集;S24.求取回报函数的权值。6.根据权利要求5所述驾驶员行为建模系统,其特征在于,求取贪婪策略下的状态-动作集的具体步骤是:由于回报函数生成器与驾驶策略获取器是循环的两部分;首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值。然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作否则,则随机选取选取完之后,记录此时的如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at),其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。7.根据权利要求5所述驾驶员行为建模系统,其特征在于,求取回报函...

【专利技术属性】
技术研发人员:邹启杰李昊宇裴腾达
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1