当前位置: 首页 > 专利查询>大连大学专利>正文

具有状态特征提取功能的驾驶员行为建模系统技术方案

技术编号:19635301 阅读:25 留言:0更新日期:2018-12-01 15:59
本发明专利技术公开了一种具有状态特征提取功能的驾驶员行为建模系统,包括特征提取器,提取构建回报函数的特征;所述特征提取器包括:训练数据模块:获得N组不同车辆驾驶环境道路情况的图片和对应的转向角情况;同时对应驾驶操作数据,联合构建起来训练数据;模拟模块:对收集来的图片进行平移、裁剪、变更亮度操作;卷积神经网络构建模块:将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数。因采用神经网络来描述策略,在神经网络参数确定的时候,状态和动作一一对应,于是对于状态‑动作对可能的情况不再受限于示范轨迹。

Driver Behavior Modeling System with State Feature Extraction Function

The invention discloses a driver behavior modeling system with state feature extraction function, which includes a feature extractor to extract the features of constructing a return function. The feature extractor includes: training data module: obtaining N groups of pictures of road conditions in different driving environments and corresponding turning angles; and corresponding driving conditions. Driving operation data are jointly constructed to train data; simulation module: translating, clipping and changing the brightness of collected pictures; convolution neural network construction module: taking processed pictures as input, corresponding image operation data as label value, training, using Nadam optimizer-based optimization The optimum solution of the mean square error loss is obtained by the method of optimization to optimize the weighting parameters of the neural network. Because the neural network is used to describe the strategy, when the parameters of the neural network are determined, the state and the action correspond one by one, so the possible situation of the state and action is no longer limited to the demonstration trajectory.

【技术实现步骤摘要】
具有状态特征提取功能的驾驶员行为建模系统
本专利技术涉及一种行为建模系统,具体说是一种具有状态特征提取功能的驾驶员行为建模系统。
技术介绍
现有基于强化学习理论的驾驶员行为建模方法主要有两种思路:思路一,采用传统强化学习的方法,其回报函数的设置依赖研究人员对于场景的分析、整理、筛选和归纳,进而获得到一系列驾驶决策有关的特征,如:车前距、是否远离路缘、是否远离行人、合理速度、变道频率等;再根据驾驶场景需求,设计一系列的实验来求取这些特征在对应场景环境下的回报函数中的权重占比,最后完成对于回报函数的整体设计,而作为描述驾驶员驾驶行为的模型。思路二,基于概率模型建模方法,采用最大熵逆向强化学习求解驾驶行为特征函数。首先假定存在潜在的、特定的一个概率分布,产生了驾驶的示范轨迹;进而,需要来找到一个能够拟合驾驶示范的概率分布,而求取这个概率分布的问题可转化为非线性规划问题,即:max-plogp∑P=1P代指的就是示范轨迹的概率分布,通过上面的式子求解得到概率分布后,由求取得到相关参数,即可求得回报函数r=θTf(st)。传统的驾驶员驾驶行为模型,利用已知驾驶数据分析、描述和推理驾驶行为,然而已采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征,更不可能获取全部状态对应动作的情况。在实际驾驶场景下,因为天气、场景、物体的不同,驾驶状态有着众多可能,遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱,模型假设条件多,鲁棒性差。其次,在实际的驾驶问题中,仅凭研究人员设置回报函数的方法,需要平衡太多对于各种特征的需求,全部依赖研究人员的经验设置,反复手动调解,耗时耗力,更致命的是过于主观。在不同场景和环境下,研究人员则需要面对太多的场景状态;同时,即使是针对某一个确定的场景状态,需求的不同,也会导致驾驶行为特征的变化。为了准确描述该驾驶任务就要分配一系列权重以准确描述这些因素。现有方法中,基于概率模型的逆向强化学习主要从现有的示范数据出发,把示范数据作为已有数据,进而寻求对应当前数据的分布情况,基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布,正确获取分布,需要获取全部状态对应动作的情况。
技术实现思路
为解决驾驶员建模泛化性弱的问题,即现有技术中所存在的对于驾驶场景不在示范数据的情况下,无法建立对应的回报函数来进行驾驶员行为建模的技术问题,本申请提供了一种具有状态特征提取功能的驾驶员行为建模系统,可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。为了实现上述目的,本专利技术方案的技术要点是:一种具有状态特征提取功能的驾驶员行为建模系统,特征提取器,提取构建回报函数的特征;所述特征提取器包括:训练数据模块:在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片和对应驾驶操作数据的转向角情况,联合构建起来训练数据;模拟模块:对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;卷积神经网络构建模块:将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取。进一步地,卷积神经网络构建模块训练完成后的卷积神经网络不包括输出层。进一步地,本申请还包括,本申请还包括回报函数生成器,用于驾驶策略的获取,具体实现方法为:S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:DE={(s1,a1),(s2,a2),...,(sM,aM)}其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;S22.求取驾驶示范的特征期望值;首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:其中γ为折扣因子,根据问题的不同,对应进行设置;S23.求取贪婪策略下的状态-动作集;S24.求取回报函数的权值。进一步地,本申请还包括驾驶策略获取器,完成驾驶策略的构建,具体实现过程为:S31构建驾驶策略获取器的训练数据;S32.建立神经网络;S33.优化神经网络对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;为S31中求得的数值;是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。进一步地,回报函数生成器与驾驶策略获取器是循环的两部分;求取贪婪策略下的状态-动作集的具体步骤是:首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值;然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作否则,则随机选取选取完之后,记录此时的如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at)其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。更进一步地,求取回报函数的权值具体步骤是:首先基于下面公式,构建目标函数:代表损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1;为上面所记录的对应状态-动作值;为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积;为正则项;借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。更进一步地,回报函数生成器实现过程还包括:S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。更进一步地,步骤S31中构建驾驶策略获取器的训练数据,每个数据包括两部分:一本文档来自技高网
...

【技术保护点】
1.一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,包括特征提取器,提取构建回报函数的特征;所述特征提取器包括:训练数据模块:在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片和对应驾驶操作数据的转向角情况,联合构建起来训练数据;模拟模块:对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;卷积神经网络构建模块:将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取。

【技术特征摘要】
1.一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,包括特征提取器,提取构建回报函数的特征;所述特征提取器包括:训练数据模块:在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片和对应驾驶操作数据的转向角情况,联合构建起来训练数据;模拟模块:对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;卷积神经网络构建模块:将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取。2.根据权利要求1所述一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,卷积神经网络构建模块训练完成后的卷积神经网络不包括输出层。3.根据权利要求1所述一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,本申请还包括回报函数生成器,用于驾驶策略的获取,具体实现方法为:S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:DE={(s1,a1),(s2,a2),...,(sM,aM)}其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;S22.求取驾驶示范的特征期望值;首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:其中γ为折扣因子,根据问题的不同,对应进行设置;S23.求取贪婪策略下的状态-动作集;S24.求取回报函数的权值。4.根据权利要求3所述一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,本申请还包括驾驶策略获取器,完成驾驶策略的构建,具体实现过程为:S31构建驾驶策略获取器的训练数据;S32.建立神经网络;S33.优化神经网络对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;为S31中求得的数值;是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。5.根据权利要求3所述一种具有状态特征提取功能的驾驶员行为建模系统,其特征在于,回报函数生成器与驾驶策略获取器是循环的两部分;求取贪婪策略下的状态-动作集的具体步骤是:首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值;然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作否则,则随机选取选取完之后,记录此时的如此对于驾驶示范DE中的每个状态的状态特征f(st,at),...

【专利技术属性】
技术研发人员:邹启杰李昊宇裴腾达
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1