当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于人车风险状态的人机共驾控制权决策方法技术

技术编号:29940055 阅读:34 留言:0更新日期:2021-09-04 19:23
本发明专利技术涉及一种基于人车风险状态的人机共驾控制权决策方法,属于汽车辅助驾驶技术领域和自动驾驶技术领域,特别是涉及到一种基于人车风险状态的人机共驾控制权决策方法;包括基于人、车风险监测信息的智能体环境特征提取、基于完全信息静态博弈理论的强化学习风险决策框架以及对不同切换时机进行标定的控制权决策方法。本发明专利技术提出的人机共驾控制权决策方法,能够为智能车辆处于高度风险状态时及时切换控制权至自动驾驶系统提供理论支持,在特殊情况下由自动驾驶系统接管车辆并降低行车风险。风险。风险。

【技术实现步骤摘要】
一种基于人车风险状态的人机共驾控制权决策方法


[0001]本专利技术属于汽车辅助驾驶
和自动驾驶
,尤其涉及一种基于人车风险状态的人机共驾控制权决策方法。

技术介绍

[0002]人机共驾指驾驶人和智能系统同时在环,分享车辆控制权,人机一体化协同完成驾驶任务。相比于常见的ADAS功能,共驾型智能汽车由于人机同为控制主体,双方受控对象交联耦合、状态转移相互制约,具有双环并行的控制结构。人机共驾能够借助人的智能和机器智能各自的优势,通过人机智能的混合增强,形成双向的信息交流与控制,构成“1+1>2”的人机合作混合智能系统,不仅可促进汽车智能化的发展,同时将对我国汽车产业、人工智能产业的发展起到强有力的支撑作用。
[0003]由于从0级到4级(SAEJ3016为L1到L4级)自动化水平的智能汽车均需要人机协同驾驶,且车辆陷入风险状态的主要诱因是驾驶人的失误操作或风险驾驶行为,此类现象在步入完全自动驾驶时代之前将会长期存在。研究难点主要体现在当驾驶人掌管控制权时,如果其表现出了风险驾驶行为并且无视系统预警的条件下,需要制本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人车风险状态的人机共驾控制权决策方法,其特征在于,包括以下步骤,且以下步骤顺次进行:步骤S1、建立基于人

车风险状态博弈关系的强化学习奖惩机制;步骤S1

1、在已完成智能车辆有能力预测驾驶人风险驾驶行为状态和车辆运行风险状态的基础上,使用马尔科夫决策过程处理人车风险监测结果,使其符合强化学习算法的运算规则;步骤S1

2、针对强化学习算法框架中的奖励函数设定问题,以期望效用最大定理为准则,以效用最大化为目标,提出基于完全信息静态博弈的人

车风险状态博弈方法;步骤S1

3、使用逼近理想解排序法计算得到的理想点相对距离作为策略收益的量化手段,基于使用熵权法计算得到的指标权值,以无风险驾驶状态的驾驶行为表征指标和时间裕度为负理想点,提取其他各风险等级的驾驶行为表征指标和时间裕度数据,分别计算以负理想点为基准的相对距离,得到考虑人

车风险博弈关系的效用矩阵;步骤S2、提出基于强化学习算法架构的人机共驾控制权决策方法;步骤S2

1、借助于马尔科夫决策过程的时序特征描述智能体的环境交互方式,将人、车风险监测结果嵌入强化学习算法架构;步骤S2

2、以步骤S1的强化学习奖惩机制作为决策的奖励或惩罚参照标准,提出基于强化学习算法架构的人机共驾控制权决策方法,通过全局寻优的方式遍历模型的决策系数和切换时机,使模型得到相对最佳的决策输出结果,兼顾最优的自动化系统切换时机;至此,完成整个决策模型的构建。2.根据权利要求1所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述步骤S1具体包括以下步骤,且以下步骤顺次进行:第一步、构建标准化评估矩阵,X是原始数据矩阵,m是指标的维度,n是指标的数目,x

ij
是标准化数据;标准化数据;第二步、指标的特征比例计算;第三步、指标的信息熵计算,p
ij
是指标的特征比例,e
i
是指标的信息熵;
第四步、基于信息熵冗余的权重计算,w
j
为指标的权值;第五步、指数的中间型化处理;第五步、指数的中间型化处理;式中,x
ij
是原始数据,是中间正则化处理后的数据,以无风险驾驶等级的表征指标作为控制变量,以x
L
作为其他风险等级的表征指标;第六步、归一化初始矩阵,z
ij
是正向指标的归一化值,即每个列元素除以当前列向量的范数;范数;第七步、各个风险等级和负理想点之间的相对距离计算;第七步、各个风险等级和负理想点之间的相对距离计算;式中,w
j
是由式(5)计算的熵权值;是各个风险等级驾驶状态负理想点之间的相对距离,以此构造人

车风险博弈关系的效用矩阵。3.根据权利要求2所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,所述第七步中构造人

车风险博弈关系的效用矩阵时,设ρ和σ分别为人、车风险状态的效用值,u
human

t
)和u
vehicle

t
)分别为驾驶行为风险状态和车辆行驶风险状态的期望效用函数,q为策略概率;当驾驶行为风险状态为RP
ihuman
时,车辆风险状态的期望收益为
当驾驶行为风险状态为时,车辆风险状态的期望收益为u
vehicle

j
)=q
·
σ
j
+(1

q)
·
σ
j+1
;为了使车辆风险状态在任意驾驶行为风险状态时都有稳定的效用,则效用函数U(σ)的计算方法如公式(12),式中的效用值σ
i
、σ
i+1
、σ
j
和σ
j+1
由公式(11)计算得到;4.根据权利要求1所述的基于人车风险状态的人机共驾控制权决策方法,其特征在于,步骤S2具体包括以下步骤,且以下步骤顺次进行:第一步、在每一个时间段t,智能体接收到表示环境情况的向量s
t
并根据s
t
做出动作策略,由策略指导产生动作A
t
,基于A
t
由奖励函数生成奖励r
t+1
会在下一个时刻给予智能体,智能体迭代更新至s
t+1
,如此反复进行形成智能体交互轨迹τ=[s0,A0,R1,s1,A1,R2,

,s
n
,A
n
,R
n+1
],在任意时间t,智能体的目标是最大化...

【专利技术属性】
技术研发人员:郭柏苍金立生谢宪毅贺阳韩广德
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1