【技术实现步骤摘要】
一种多场景下人机混驾智能列车的控制方法
[0001]本专利技术涉及交通运输
,特别是一种多场景下人机混驾智能列车的控制方法。
技术介绍
[0002]随着智能机器与各类智能终端不断涌现,人与智能机器的交互、混合是未来社会的发展形态。然而,对于许多存在不确定性、脆弱性和开放性问题的情况下,任何智能的机器都无法完全取代人类。这将需要将人类的作用或人的认知模型引入到人工智能系统中,形成混合增强智能的形态。现有列车人机共驾的研究根据人机协同方法目前大体可分为两大类型:第一类是通过人与机切换控制,在自动驾驶系统和人驾驶两者之间相互切换,采用接管方式控制列车;第二大类是人机之间相互辅助驾驶,即人辅助机器驾驶,或者机器辅助人驾驶;第三大类是人机共享控制,列车驾驶员和驾驶自动化机器系统同时对车辆运动进行控制。其中,第三大类的控制方式,列车人机混合智能共驾通过发挥人机各自优势,是提升智能列车稳定性、安全性和舒适性的可行技术手段。
[0003]对于人机共享的控制方式来说,需要考虑机器档位操控和驾驶员人工档位操控的权重分配问题。然而现有技术中,通常对人机档位操控的权重进行平均分配,分配方式简单粗糙,很难满足列车对准点、能耗和乘坐舒适度三目标的要求。另一方面,不同的天气类型对驾驶员的档位操控决策有影响,此时不对人机档位操控的权重分配进行合理调整,会进一步使列车行驶的准点率降低,能耗提高,乘坐舒适度下降。
[0004]事实上,天气因素对机器档位操控决策也有影响,对于不同的天气类型,列车行驶路段的限速等参数是不同的,如果机器
【技术保护点】
【技术特征摘要】
1.一种多场景下人机混驾智能列车的控制方法,其特征在于:包括车载机器控制模块、车载人工控制模块、车载驾驶权重分配模块、车载驾驶主控模块、车载通信模块和地面列车控制中心;所述地面列车控制中心包括地面通信模块、地面驾驶主控模块、驾驶环境监测模块、操控档位生成模块和权重分配生成模块;所述操控档位生成模块包括第一强化学习模块和第二强化学习模块;所述权重分配生成模块包括人机混驾仿真系统,所述人机混驾仿真系统能模拟列车的驾驶环境,通过人机混驾仿真系统还能获取人机混合智能驾驶的仿真数据;所述驾驶环境监测模块能获取列车运行路段的天气类型信息,并将天气类型信息传输给地面驾驶主控模块;所述天气类型包括晴好天气和恶劣天气;地面驾驶主控模块能从权重分配模块获取列车驾驶路段的可用人机操控权重分配序列,并将获取的可用人机操控权重分配序列发送给车载通信模块;地面驾驶主控模块能根据天气类型信息从操控档位生成模块中获取可用最优档位操控序列,并将获取的可用最优档位操控序列发送给车载通信模块;所述控制方法包括:设列车将从A站点行驶到B站点,将A站点与B站点之间的路段记为AB路段,所述AB路段由N个步进长度相等的步进区段组成;所述第一强化学习模块根据方法一生成列车在晴好天气下的第一最优档位操控序列,所述第二强化学习模块根据方法二生成列车在恶劣天气下的第二最优档位操控序列;权重分配生成模块根据方法三生成列车在AB路段行驶的人机操控权重分配序列;一)当列车从A站点驶出前,车载驾驶主控模块通过车载通信模块向地面通信模块发送数据装载请求;二)地面通信模块将数据装载请求传输给地面驾驶主控模块,然后地面驾驶主控模块从驾驶环境监测模块获取AB路段当前的天气类型信息;三)地面驾驶主控模块根据收到的天气类型信息按方法四获取可用最优档位操控序列和可用人机操控权重分配序列;四)地面驾驶主控模块将所述可用最优档位操控序列数据和可用人机操控权重分配序列数据通过地面通信模块发送给车载通信模块,然后车载通信模块将收到的可用最优档位操控序列数据和可用人机操控权重分配序列数据分别传输给车载机器控制模块和车载驾驶权重分配模块;然后车载机器控制模块对收到的可用最优档位操控序列数据进行装载,车载驾驶权重分配模块对收到的可用人机操控权重分配序列数据进行装载;五)车载机器控制模块根据可用最优档位操控序列实时向车载驾驶权重分配模块传输第一操控档位指令;同时,驾驶员通过车载人工控制模块实时向车载驾驶权重分配模块传输第二操控档位指令;六)车载驾驶权重分配模块每次收到第一操控档位指令和第二操控档位指令即按方法五进行处理生成当前的融合操控档位A
′
i
,然后车载驾驶权重分配模块根据所述A
′
i
生成当前的融合操控档位指令并传输给车载驾驶主控模块;七)车载驾驶主控模块根据收到的融合操控档位指令控制列车运行;如果列车到达B站点程序结束,否则返回步骤五);
所述方法一包括:1)对AB路段列车在晴好天气条件下的历史运行数据进行收集处理,获取多个经验档位操控序列,多个经验档位操控序列组成一个经验回放池;其中,单个经验档位操控序列τ可根据公式一确定;2)以从经验回访池中随机选择的一个经验档位操控序列为基础,采用DQN算法进行强化学习,生成第一最优档位操控序列;所述公式一为:τ={s0,a0,r0;s1,a1,r1;s
i
,a
i
,r
i
;
…
;s
N
‑1,a
N
‑1,r
N
‑1;s
N
}其中,i为0至N的整数;s
i
表示晴好天气下列车在第i个步进区段的状态,s
i
根据公式二确定;a
i
表示所述s
i
对应的档位操控动作;所述r
i
为根据列车在第i个步进区段的状态和档位操控动作进行计算所获得的奖励值,所述r
i
根据公式三确定;所述公式二为:其中,所述d
i
、v
i
、t
i
、u
i
、g
i
和分别为晴好天气下,列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速;所述公式三为:其中,所述为准时性奖励函数,根据公式四确定;所述为能耗奖励函数,根据公式五确定;所述为乘坐舒适度奖励函数,根据公式六确定;所述w1、w2和w3分别为和的权重系数,w1、w2和w3为设定值,且w1+w2+w3=1;所述公式四为:其中,所述为列车在第i个步进区段行驶的实际时长;所述t
max
为列车在单个步进区段行驶的最大时长;所述T
r
为列车在路段AB上的实际运行时长;所述T为列车在路段AB上的计划运行时长;所述公式五为:其中,所述u
i
为列车在第i个步进区段的加速度;所述Δd为单个步进区段的长度;所述e
max
为列车在单个步进区段上行驶所需的最大能耗;所述公式六为:其中,所述u
i+1
为列车在第i+1个步进区段的加速度;所述Δc
max
为列车的最大运行冲击率;
所述方法二包括:对AB路段列车在恶劣天气条件下的历史运行数据进行收集处理,获取多个专家档位操控序列,单个专家档位操控序列τ
′
根据公式七获取;A)采用强化学习的方法,使智能体与环境交互得到多个初始机器档位操控序列,单个机器档位操控序列τ
″
根据公式九获取;B)程序首次循环时,采用GAIL算法对多个专家档位操控序列数据和多个初始机器档位操控序列数据进行处理,得到多个待判档位操控序列和判别概率p;程序后续循环中,采用GAIL算法对多个专家档位操控序列数据和多个更新机器档位操控序列数据进行处理,得到多个待判档位操控序列和判别概率p;C)对判别概率p进行判断,如果判别概率p满足大于设定值要求为真,则将多个所述待判档位操控序列中,累计奖励值最大的待判档位操控序列作为第二最优档位操控序列,程序结束;否则进入步骤D);D)采用PPO算法对多个待判档位操控序列进行处理,得到多个更新档位操控序列;返回步骤B);所述公式七为:τ
′
={s
′1,a
′1;
…
;s
′
i
,a
′
i
;
…
;s
′
N
,a
′
N
}其中,s
′
i
表示专家档位操控序列中,恶劣天气下列车在第i个步进区段的状态,s
′
i
根据公式八确定;a
′
i
表示所述s
′
i
对应的档位操控动作;所述公式八为:其中,所述d
′
i
、v
′
i
、t
′
i
、u
′
i
、g
′
i
和分别为恶...
【专利技术属性】
技术研发人员:徐凯,夏智超,吴仕勋,蓝章礼,杨建喜,张淼,许仕壮,
申请(专利权)人:重庆交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。