自适应巡航决策系统、方法、计算机设备和计算机可读存储介质技术方案

技术编号:33279309 阅读:25 留言:0更新日期:2022-04-30 23:39
一种自适应巡航决策系统、方法、计算机设备和计算机可读存储介质,系统包括:决策模型建立模块,用于建立网络决策模型,网络决策模型包括上层决策网络、底层执行网络、奖励函数;初始化模块,用于初始化环境参数,获取环境初始外部状态s

【技术实现步骤摘要】
自适应巡航决策系统、方法、计算机设备和计算机可读存储介质


[0001]本专利技术涉及巡航决策
,尤其是一种自适应巡航决策系统、方法、计算机设备和计算机可读存储介质。

技术介绍

[0002]近年来,高科技技术蓬勃发展,驱动汽车由单纯交通运输工具逐步向智能移动空间转变的新一代汽车。智能驾驶的行为中,车道内自适应巡航行为是最基础的,负责从出发地点到目的地,给出合适的速度控制指令,由控制层执行,从而引导车辆的行驶。
[0003]智能车行驶过程中,为了向乘客提供舒适的驾驶体验,并使周围的驾驶员能够更好地理解本车的行为,自适应巡航算法的驾驶风格应接近人类驾驶员。
[0004]从现有的技术来看,自适应巡航控制算法主要分为基于规则的自适应巡航控制算法,仅有少数专利基于学习的自适应巡航控制算法,且算法设计考虑较简单。基于规则的自适应巡航系统的控制策略总是在固定的框架中,策略不能通过不同的驾驶员偏好和不同驾驶员的驾驶风格而改变,这降低了基于规则的自适应巡航控制算法的适应性和驾驶员接受程度。
[0005]在基于学习的自适应巡航控算法设计中,大部分研究者采用单层深度强化学习算法搭建自适应巡航算法,并使用专家估计法设计奖励函数,由于单层强化学习算法不符合人类“决策

执行”的行为模式,且专家估计法设计的奖励函数没有基于真实驾驶数据对奖励函数进行拟人化改进,因此基于这种方法很难进行拟人化的自适应巡航控制算法设计。
[0006]因此,对自适应巡航的行为进行合理算法设计,给出安全、舒适的驾乘感受具有重要的现实意义。

技术实现思路

[0007]专利技术目的:提供一种能够满足驾乘人员对智能驾驶车辆类人驾驶风格及拟人化体验需求的系统、方法、计算机设备和计算机可读存储介质。
[0008]技术方案:一种自适应巡航决策系统,适用于自车相对前车的自适应巡航,包括:决策模型建立模块,用于建立网络决策模型,该网络决策模型包括上层决策网络、底层执行网络、奖励函数,奖励函数包括安全性奖励函数、舒适性奖励函数以及跟随性奖励函数;初始化模块,用于初始化环境参数:两车间距、自车速度、两车速度差、自车加速度、两车加速度变化量绝对值;子目标集Goals={goal0,goal1,goal2,...,goal
i
,...,goal
n
},动作集Actions={a0,a1,a2,...,a
i
,...,a
m
};用于获取环境的初始外部状态s
0meta
、初始内部状态s
0controller
;决策执行模块,用于根据输入的外部状态参数s
imeta
,选择初始子目标参数goal
i
,用于获取初始化奖励参数r
imeta
,其中,i为从1至N的整数;用于判断子目标条件是否完成,完成子目标条件为:本车与前车之间的距离小于预设最小值或大于预设最大值,自车速度为0;若未完成子目标条件,用于根据输入的内部状态参数s
jcontroller
,选择初始动作a
j
,并使初
始动作a
j
与环境交互,以获得内部状态参数s
j+1controller
,并用于获得与环境交互完成后输出的奖励参数r
jcontroller
,j为动作与环境交互次数,以及用于获得存储记忆{s
jcontroller
,a
j
,r
j
,s
j+1controller
,goal
i
};用于使r
imeta
=r
imeta
+r
j+1controller
,以获取完成子目标期间奖励函数的累计和;用于使i从1开始循环,到N结束,遍历执行,直至完成子目标条件时结束;用于获得存储记忆{s
imeta
,goal
i
,r
imeta
,s
i+1meta
}。
[0009]进一步的,在上层决策网络中,s
meta
={ego
v
,dis,Δv};Goals={

10m,

5m,

2m,

1m,0m,1m,2m,5m,10m}。
[0010]进一步的,在底层决策网络中,s
controller
={dis,ego
v
,Δv,ego
a
,|ego
at

ego
at+1
|};Actions={

3,

2,

1,

0.8,

0.6,

0.4,

0.2,0,0.2,0.4,0.6,0.8,1,2,3},单位为m/s2。
[0011]进一步的,安全性奖励函数记为r
safe
,r
safe
=min(r
safe1
,r
safe 2
);其中,当自车速度大于前车时,安全性奖励r
safe1
使用TTC
‑1作为指标评估安全性,
[0012][0013][0014]当自车速度小于等于前车且两车间距较小时,安全性奖励r
safe2
使用安全车距d
safe
作为指标评估安全性,
[0015][0016][0017]d
safe
为前车突然减速为0时自车为了不撞车需要保持的车距,t0为人类反应时间,egov0为当前自车速度,a
max
为自车最大减速度;
[0018]舒适性奖励函数记为
[0019][0020][0021]跟随性奖励的值为两种跟随奖励的最小值,记为r
follow
=min(r
follow1
,r
follow2
),
[0022][0023]其中d
safe
为安全距离,d
max
为最大跟车距离,取d
max
=80m;
[0024][0025]其中Δv=aim
v

ego
v

[0026]本专利技术还提供一种自适应巡航决策算法,适用于自车相对前车的自适应巡航,包括以下步骤:
[0027](1)建立网络决策模型,该网络决策模型包括上层决策网络、底层执行网络、奖励函数,奖励函数包括安全性奖励函数、舒适性奖励函数以及跟随性奖励函数;
[0028](2)初始化环境参数:两车间距、自车速度、两车速度差、自车加速度、两车加速度变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应巡航决策系统,适用于自车相对前车的自适应巡航,其特征在于,包括:决策模型建立模块,用于建立网络决策模型,该网络决策模型包括上层决策网络、底层执行网络、奖励函数,奖励函数包括安全性奖励函数、舒适性奖励函数以及跟随性奖励函数;初始化模块,用于初始化环境参数:两车间距、自车速度、两车速度差、自车加速度、两车加速度变化量绝对值;子目标集Goals={goal0,goal1,goal2,...,goal
i
,...,goal
n
},动作集Actions={a0,a1,a2,...,a
i
,...,a
m
};;用于获取环境的初始外部状态s
0meta
、初始内部状态s
0controller
;决策执行模块,用于根据输入的外部状态参数s
imeta
,选择初始子目标参数goal
i
,用于获取初始化奖励参数r
imeta
,其中,i为从1至N的整数;用于判断子目标条件是否完成,完成子目标条件为:本车与前车之间的距离小于预设最小值或大于预设最大值,自车速度为0;若未完成子目标条件,用于根据输入的内部状态参数s
jcontroller
,选择初始动作a
j
,并使初始动作a
j
与环境交互,以获得内部状态参数s
j+1controller
,并用于获得与环境交互完成后输出的奖励参数r
jcontroller
,j为动作与环境交互次数,以及用于获得存储记忆{s
jcontroller
,a
j
,r
j
,s
j+1controller
,goal
i
};用于使r
imeta
=r
imeta
+r
j+1controller
,以获取完成子目标期间奖励函数的累计和;用于使i从1开始循环,到N结束,遍历执行,直至完成子目标条件时结束;用于获得存储记忆{s
imeta
,goal
i
,r
imeta
,s
i+1meta
}。2.根据权利要求1所述的自适应巡航决策系统,其特征在于,在上层决策网络中,s
meta
={egov,dis,Δv};Goals={

10m,

5m,

2m,

1m,0m,1m,2m,5m,10m}。3.根据权利要求1所述的自适应巡航决策系统,其特征在于,在底层决策网络中,s
controller
={dis,egov,Δv,egoa,|egoat

egoa t+1|};Actions={

3,

2,

1,

0.8,

0.6,

0.4,

0.2,0,0.2,0.4,0.6,0.8,1,2,3},单位为m/s2。4.根据权利要求1所述的自适应巡航决策系统,其特征在于,安全性奖励函数记为r
safe
,r
safe
=min(r
safe1
,r
safe2
);其中,当自车速度大于前车时,安全性奖励r
safe1
使用TTC
‑1作为指标评估安全性,标评估安全性,当自车速度小于等于前车且两车间距较小时,安全性奖励r
safe2
使用安全车距d
safe
作为指标评估安全性,指标评估安全性,d
safe
为前车突然减速为0时自车为了不撞车需要保持的车距,t0为人类反应时间,ego
v0
为当前自车速度,a
max
为自车最大减速度;舒适性奖励函数记为r
comfort2

r
comfort
=min(r
comfort1
,r
comfort2
););跟随性奖励的值为两种跟随奖励的最小值,记为r
follow
=min(r
follow1
,r
follow2
),其中d
safe
为安全距离,d
max
为最大跟车距离,取d
max
=80m;其中Δv=aim
v

ego
v
。5.一种自适应巡航决策算法,适用于自车相对前车的自适应巡航,其特征在于,包括以下步骤...

【专利技术属性】
技术研发人员:陈朋
申请(专利权)人:的卢技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1