【技术实现步骤摘要】
一种基于混合增强智能的高一致性人机混合决策方法
[0001]本专利技术涉及一种人机混合决策方法,特别涉及一种基于混合增强智能的高一致性人机混合决策方法。
技术介绍
[0002]在2010至2022年间,自动驾驶系统已经由原理样机逐步发展为成熟产品,在很大程度上降低了驾驶人的驾驶负荷,并提高了驾驶任务的安全性。目前,自动驾驶等级L1及L2已形成较为成熟的产品,L3及L4级已形成较为成熟的原理样机并逐渐迈向产品化。先进驾驶人辅助驾驶模式的自动化驾驶系统产品化为高度自动驾驶及全无人驾驶奠定了技术基础,并探索出较为成熟的智能交通系统范式。随着自动驾驶系统及其相关智能化交通基础建设的不断完善,动态且开放的真实交通环境也对自动驾驶系统的安全性与适应性提出了更高挑战,作为过渡型伪无人驾驶系统的典型代表和建设性产品模式探索,高度自动驾驶系统需要具备安全且可靠的系统性能。因此,对于人机共驾型自动驾驶系统的安全可信性能开发,以及人机一致性策略设计,已成为目前自动驾驶系统的研究前沿与关键技术。
[0003]目前,在人机共驾型自动驾驶系统领 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合增强智能的高一致性人机混合决策方法,其特征在于:其方法包括的步骤如下:第一步、整合输入数据流与信息流,具体过程如下:步骤一、整合多模态“人—交通”混杂态势数据流;步骤二、整合人机混合增强决策模型内参数据流,该步骤将第二步中人机混合增强决策模型的各个步骤对应的模型内参按时间与事件顺序进行排列与整合,将整合后的模型内参作为第三步中步骤二决策模型知识构建的数据输入,本步骤的输入信号为第二步构建的人机混合增强决策模型中各个步骤对应的模型内参;输出信号为人机混合增强决策模型内参数据流;步骤三、整合人机混合增强决策驾驶权评估目标信息流;步骤四、整合人机混合增强决策在线评估结果信息流;第二步、构建人机混合增强决策模型,具体过程如下:步骤一、构建驾驶人推理机制模型;步骤二、构建基于类脑计算的高级“类我”决策模型;步骤三、构建人机决策一致性对比模型;步骤四、构建驾驶权细分模型;第三步、构建在线人机决策知识库,具体过程如下:步骤一、建立在线人机决策知识库系统框架,具体内容包括:人机决策用知识模式、各模式间的知识数据结构以及各模式间的数据交互逻辑,人机决策用知识模式包含第三步中步骤二决策模型知识、步骤三决策图谱知识、步骤四决策推理知识以及步骤五新知识合成机制模型,步骤二决策模型知识的知识数据结构为面向对象的语义映射结构;步骤三决策图谱知识的知识数据结构为分类树图谱结构;步骤四决策推理知识的知识数据结构为基于数据序列的图谱结构;步骤五新知识合成机制模型判断合成的新知识模式,并采用对应知识模式的知识数据结构,步骤三决策图谱知识和步骤四决策推理知识接收步骤二决策模型知识的知识内容,并以此作为步骤三决策图谱知识和步骤四决策推理知识的输入;步骤五新知识合成机制模型接收步骤二决策模型知识、步骤三决策图谱知识和步骤四决策推理知识的知识内容,并以此作为新知识模式的判断依据,并将与新知识输出至于新知识模式相同的对应步骤中;步骤二、建立决策模型知识;步骤三、建立决策图谱知识;步骤四、建立决策推理知识;步骤五、构建新知识合成机制模型;第四步、整合输出变量,具体过程如下:步骤一、整合高级“类我”决策过程量,该步骤将第二步中步骤一、步骤二和步骤三所包括的各个环节对应的输出信号按照时间对齐的方式进行了整合,用于输出至高度自动驾驶系统中的决策在线校验模块;步骤二、整合在线评估用知识库知识量;步骤三、整合人机混合决策驾驶权细分权重量,该步骤将第二步中步骤四对应的环节三输出的驾驶权分配系数τ
*
进行了整合,整合包括对τ
*
的历史数据存储,用于输出至第三步
中的步骤五新知识合成机制模型;步骤四、整合人机混合决策期望控制量。2.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法,其特征在于:所述的第一步各步骤中包括的环节如下:第一步中步骤一的具体环节如下:环节一、人态势评估,该环节通过当前时刻驾驶人的操纵动作和驾驶人的生物电信号,评估包括驾驶人对当前场景中感兴趣区域提取以及驾驶意图在内的当前时刻人态势,驾驶人的操作动作包括油门踏板开度、制动踏板开度引起的制动主缸压力、转向盘转角及角速度、驾驶人眼动及驾驶人头动,驾驶人生物电信号包括驾驶人的心电、脑电、肌电和皮电信号,因此,该环节的输入信号为驾驶人操纵信号以及驾驶人生物电信号;输出信号为人态势评估结果H
ms
;环节二、交通态势评估,该环节通过当前动态场景信号和静态场景信号,评估包括动态场景中的动态参与物以及静态场景中的行驶规则与道路情况在内的交通态势,动态场景信号包括动态交通车信号以及动态行人信号,静态场景信号包括车道线、交通标识以及路沿石信号,因此,该环节的输入信号为动态场景信号以及静态场景信号;输出信号为交通态势评估结果T
fs
;环节三、混杂态势融合,该环节将上述环节一与环节二的输出信号进行融合,通过对H
ms
和T
fs
进行时间对齐和空间坐标转换,实现带有多数据模态及场景元素的混杂态势融合,该环节的输入信号为上述的环节一输出的人态势评估结果H
ms
以及环节二输出的交通态势评估结果T
fs
;输出信号为混杂态势融合结果M
us
;第一步中步骤三的具体环节如下:环节一、驾驶人驾驶能力评估,该环节通过当前时刻的驾驶人
‑
车
‑
路
‑
环境的状态与耦合情况,计算当前时刻驾驶人对车辆的综合控制能力,即评估当前时刻驾驶人的驾驶能力,采用典型系统辨识模型作为驾驶能力评估模型,将该环节的输入信号输入进驾驶能力评估模型,进而得到量化的驾驶能力评估结果,该环节的输入信号为人态势评估结果H
ms
、车辆状态信号、车路耦合状态信号;输出信号为驾驶人驾驶能力评估结果;环节二、自驾系统驾驶能力评估,该环节通过当前时刻的交通态势及自动驾驶系统中感知与决策两个层次的全部模型内参,计算当前时刻自动驾驶系统对车辆的综合控制能力,即自驾系统驾驶能力,将该环节的输入数据对应的状态变量赋予对应的权重值,并采用带有权重的线性函数进行计算,进而实现对自驾系统驾驶能力的评估,该环节的输入信号为交通态势评估结果T
fs
以及自动驾驶系统内参;输出信号为自驾系统驾驶能力评估结果;环节三、驾驶权规划,通过上述环节一输出的驾驶人驾驶能力评估结果和环节二输出的自驾系统驾驶能力评估结果,分别量化的评估当前时刻下高度自动驾驶系统中驾驶人和自驾系统对车辆的综合控制效果,因此,根据驾驶人驾驶能力评估结果和自驾系统驾驶能力评估结果,通过归一化计算方式,能够计算得到当前时刻驾驶人和自驾系统间的驾驶权分配系数τ,该环节的输入信号为驾驶人驾驶能力评估结果以及自动驾驶驾驶能力评估结果,输出信号为驾驶权分配系数τ;第一步中步骤四的具体环节如下:环节一、短时域在线校验结果,该环节通过整合高度自动驾驶系统中短时域快速更新
的决策在线检验模块,得到短时域在线校验结果,决策在线校验模块是高度自动驾驶系统中,用于评估人机混合决策效果的模块,将该模块输出的短时域校验信号进行时间对齐与阈值检测,能够得到清晰且合理的短时域在线校验结果,该环节的输入信号为短时域校验模块信号;输出信号为短时域校验结果;环节二、长时域在线优化结果,该环节通过整合高度自动驾驶系统中长时域快速更新的决策在线检验模块,得到长时域在线校验结果,将该模块输出的长时域校验信号进行时间对齐与阈值检测,能够得到清晰且合理的长时域在线校验结果,该环节的输入信号为长时域校验模块信号;输出信号为长时域校验结果;环节三、在线评估信息流整合,该环节将上述环节一输出的短时域校验结果和环节二输出的长时域校验结果进行整合,得到在线评估结果,整合过程主要包括时域类别标注以及冗余时域剔除两个部分,该环节的输入信号为短时域校验结果以及长时域校验结果,输出信号为在线评估结果O
er
。3.根据权利要求1所述的一种基于混合增强智能的高一致性人机混合决策方法,其特征在于:所述的第二步各步骤中包括的环节如下:第二步中步骤一的具体环节如下:环节一、多目标学习框架,建立基于人机混合决策安全性、舒适性、功能性及机动性的多学习目标,在驾驶人推理机制模型中的全局图中提取局部子图,并建立根据关系聚类和局部子图间的耦合结果进行随机游走的学习框架,具体包含:推理机制模型定义、实体关系标准制定以及实体关系聚类等三部分;环节二、全局图谱随机游走,建立驾驶人推理机制全局图,并判断全局图中各个实体对间可达性,进而求解全局图对应的推理结果,具体包含:全局图建立,实体可达性计算以及全局推理结果计算等三部分;环节三、局部子图随机游走,从驾驶人推理机制全局图中提取特定的驾驶人推理机制局部关系子图,实现随机游走,具体包含:局部子图建立、实体转移概率矩阵计算以及局部推理结果计算等三部分;环节四、融合推理,将上述的环节二和环节三获得的全局推理结果以及局部推理结果进行统一的分布区域匹配,采用非线性化映射逻辑融合推理结果,具体包含:推理结果归一化计算以及融合推理结果计算等两部分;人态势评估结果H
m
和人机决策一致性对比结果C
hm
组成驾驶人推理在线数据流F
lf
,即F
lf
={H
ms
,C
hm
};决策推理知识库K
df
和决策图谱知识库K
dm
组成驾驶人推理离线知识流F
fk
,即F
fk
={K
df
,K
dm
},因此,驾驶人推理机制模型定义的计算式如下(1)所示:式中,G
m
和L
m
分别代表全局图和局部子图,f(G
m
,L
m
)为DIMM的函数,f(F
lf
)表示F
fk
的子集函数,因此,DIMM模型为基于多目标学习框架及随机游走模式的推理模型,在特定时刻驾驶场景下,独立的关系γ间通过实体相关度对比,实现簇|R
γ
|的多次迭代与聚类,并更新所组成的新簇对应的包含全部特征值c
γ
的共享特征值集C
γ
,簇间相似度函数sim(C
γ,m
,C
γ,n
)的计算式如下式(2)所示:
式中,算子Π表示对集合C
γ
中各元素进行求积,C
γ
的下标m和n表示编号为m和n的两个不同的C
γ
,在求得|R
γ
|间相似度的基础上,建立联合学习分类模型来耦合并构成各个|R
γ
|内γ的路径R
r
,分类器结构函数f
cl
(R
r
)及对应的联合关系学习模型的计算式如下式(3)所示:式中,μ1和μ2分别为正则化系数,ω
k
和ω0分别为权重系数及其基准值,b
k
和b0分别为分类结构偏差系数及其基准值,d
k
为权重向量偏差系数,函数L(R
ri,p
,R
ri,q
)为f
cl
(R
r
)的训练损失函数,其中的下标p和q分别表示编号为p和q的两个不同的R
r
,下标i表示R
r
的编号,N
k
为R
r
的数量,下标k表示d
k
的编号,K为d
k
的数量,将实体关系聚类得到的实现簇|R
γ
|及其对应路径R
r
作为约束,实现上述环节二全局图谱随机游走的计算,上述环节二全局图谱随机游走通过提取G
m
中各个关系r
el
及其相应c
γ
,建立全局关系特征模型,G
m
被定义为G
m
={g
m,i
={h
gm,i
,R
rg,i
,ra
gm,i
},i=1,2,...,s},其中,g
m,i
为G
m
的一个子图,下标i和s分别表示子图编号和为子图总数,g
m,i
中的h
gm,i
、R
rg,i
以及ra
gm,i
分别表示有效子图的头实体、路径及尾实体,G
m
中由h
gm,i
通过R
rg,i
到达ra
gm,i
的可达性p
re
计算式如下式(4)所示:式中,sl={h
gm,i
∪ra
gm,i
,i=1,2,...,s},R
ra,i
为与ra
gm,i
直接对应的R
rg,i
中的尾部关系元素,sl和ra
gm,i
的相似度函数sim(sl,ra
gm,i
)的计算方式与计算式(2)中对C
γ,m
和C
γ,n
间相似度函数的计算方式相同,用α表示R
rg,i
对应的权重值矩阵,则全局图谱随机游走模型可表示为:f(G
m
)=α
·
p
re
,采用逻辑回归算法对模型f(G
m
)的参数进行训练,并选择sigmoid函数作为结果的归一化函数,归一化后的全局推理结果p
g
计算式如下式(5)所示:L
m
为G
m
的子集,定义为L
m
={l
m,i
={h
lm,i
,R
rl,i
,ra
lm,i
},i=1,2,...,z},其中,l
m,i
为L
m
的一个子图,下标i和z分别表示子图编号和为子图总数,l
m,i
中的hl
m,i
、R
rl,i
以及ra
lm,i
分别表示有效子图的头实体、路径及尾实体,因此对L
m
进行随机游走计算时,计算的空间复杂度降低,采用直接计算L
m
中不同实体间的转移概率矩阵T
M
,进而获得相应的局部推理结果,T
M
的
计算式如下式(6)所示:式中,N
hl,i
和N
ral,i
分别为根据hl
m,i
以及ra
lm,i
构造的对角矩阵,sp为T
M
的转移步数,M
l,i
为第sp步时L
m
对应的邻接矩阵,T
M
的第a行b列对应的元素T
M
[a,b]表示以hl
m,i
为起点进行随机游走,经过了sp步后跳转到ra
lm,i
的概率,采用p
l
表示对R
rl,i
的局部推理结果评估结果,得到了p
l
计算式如下式(7)所示:将p
g
及p
l
进行融合并归一化,得到了融合推理结果p
f
的计算式如下式(8)所示:式中,δ表示融合推理稳定系数,用来平衡p
g
及p
l
的贡献比例,由此,第二步中的步骤一驾驶人推理机制模型输出了融合推理结果;第二步中步骤二的具体环节如下:环节一、神经元组模型,建立神经元组模型,为下述的环节四对应的“类我”决策模型得建立提供个性化分类依据,具体包含:神经元组模型定义、特征提取、基于刺激的分类以及突出矩阵等四部分;环节二、深度卷积网络,通过深度学习网络,为下述的环节三对应的强化学习模型提供面向策略的拟合依据,具体包含:行为网络结构定义以及评价网络结构定义等四部分;环节三、强化学习模型,通过强化学习模型,实现自动驾驶系统的复杂决策模式,通过寻找最优策略,计算强化学习模型中的最优动作,具体包含:状态定义、奖励函数以及策略梯度等三部分;环节四、“类我”决策模型,该环节通过上述的环节一得到的个性化分类依据,并结合上述的环节二和环节三的深度强化学习过程,在数据层面融合了“类我”决策数据,通过判断迭代效果是否达到预设的阈值,最终输出自动驾驶系统的在线决策结果,具体包含:“类我”数据融合以及阈值判断等两部分;T
fs
和C
hm
组成神经元组在线分类数据流F
cf
,即F
cf
={T
fs
,C
hm
};K
dd
和K
dm
组成自动驾驶离线训练知识流F
ak
,即F
ak
={K
dd
,K
dm
},神经元组模型定义的计算式如下式(9)所示:NGM=f(F
cf
)(9)根据F
ak
提取特定特征,并采用基于海博学习及赫布学习的增量学习规则进行学习,预设一个N
G
维度的类别标签,并将所提取的特定特征作为条件刺激,建立属于特定分类维度的个性化神经元组模型,增量学习规则计算式如下式(10)所示:
式中,ΔCHL、ΔHeb和Δβ分别表示赫布学习规则、海博学习规则及增量学习规则,β表示增量学习规则对应的突触矩阵,g
j
为突触前激活,h
i
为突触后激活,下标i,j分别对应由F
ak
提取的第i行第j列的特定特征元素,+和
‑
分别代表家阶段和减阶段,ζ为权重系数,κ为学习率,采用kWTA函数获取特征矩阵中的稀疏分布表示,并提取前r个激活单元,对应的抑制函数f
r
计算式如下式(11)所示:式中,χ为抑制阈值,实现前r个激活单元处于激活模式,被激活的h
i
通过计算β的第i行与g
j
的标准化点积得到,对应的计算式如下式(12)所示:遍历计算h
i
后,将h
i
中取值最大的元素h
i,max
定义为最大反应神经元,当且仅当r=h
i,max
时,对应的β
ij
为已学习过的特征元素,综上,建立起N
G
维度的M
c
={m
c,1
,m
c,2
,...,m
c,NG
},其中m
c
为N
G
维度分类后的M
c
的子模型;将通过M
c
中对应子模型分类下的K
dd
及K
dm
的子数据集K
dd,NG
及K
dm,NG
,作为上述的环节二深度卷积网络和环节三强化学习模型对应的模型训练数据,深度卷积网络和...
【专利技术属性】
技术研发人员:孙博华,马文霄,张宇飞,吴官朴,冷炘伦,赵帅,翟洋,
申请(专利权)人:吉林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。