【技术实现步骤摘要】
一种基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法
[0001]本专利技术属于智能车辆控制领域,具体涉及基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法。
技术介绍
[0002]随着人工智能技术的发展,当前自动驾驶技术有了很大发展,目前侧重于在封闭园区场景,如封闭式校园场景、物流产业园区场景等,尤其是具有结构化道路特征、行人和车辆较少的港湾道路环境,应用更加普遍。自动驾驶车辆采用环境感知、导航、地图定位、决策、运动规划和轨迹跟踪控制来实现车辆的智能化。然而自动驾驶车辆在跨海大桥等复杂天气和复杂行驶环境时,恶劣的气候环境会影响桥梁路况,导致车辆发生转向或侧滑和侧翻现象,如气候环境的雨、雪、风等会导致道路附着系数变化和轮胎打滑,从而改变路径跟踪、车道保持和车辆控制精度。此外,桥梁道路环境可能会因风力天气的影响而产生振动,产生车辆侧倾现象,从而导致无法控制的情况。因此,在总体控制设计中还考虑了道路振动特性、道路角度和空气动力学特性,当车辆具有湿滑路面引起的侧滑现象、桥梁振动引起的车辆偏航特性、高速车辆性能引起的车辆侧倾动力学现象等不确定性特征时,控制技术是一项复杂的任务。因此进行基于恶劣天下环境下的自动驾驶车辆侧倾控制的行驶安全性和稳定性研究,是一项重要的关键技术。强化学习是人工智能技术的应用范畴,智能体可以探索未知的动态环境,尝试不同的动作并与动态环境交互,而无需任何精确的车辆模型和给定的周围环境,强化学习可以学习未知环境,通过与环境交互的动作和状态实现复杂的车辆动力学,是适应动态道路环境认知和复杂车辆动力学性能的一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,包括以下步骤:(1)在自动驾驶车辆上安装激光雷达、视觉、毫米波雷达、超声波雷达传感器、定位系统和惯性导航系统;(2)使用视觉传感器、定位系统和惯性导航系统实现车辆分别在不同场景下的位置和地图,以生成不同场景下的自动驾驶车辆行驶地图,实现车辆行驶轨迹所需要的环境;(3)分别控制方向盘、油门和踏板,在跨海大桥上行驶,获取雨雪天、强风恶劣天气、晴天下相应的行驶轨迹,构建数据集;(4)在不同场景下的自动驾驶车辆行驶地图训练DDPG算法,用于恶劣天气下跨海大桥在不同复杂路况等级下的行驶状态;自动驾驶车辆通过与不同场景下的地图环境交互,产生实时的车辆状态,确定车辆的动作行为;在进行动作训练时,对动作空间进行初始化,演员网络中的online策略网络产生状态空间信息,进行动作输出,并增加一个动作噪声来获取具有探索性的动作空间;(5)基于LSTM历史记忆和道路规划属性,生成自动驾驶车辆状态预测的路径,采用DDPG算法实现自动驾驶车辆正常行驶路况下和极端行驶路况下路径轨迹的跟踪控制,并采用迭代控制方法实现自动驾驶车辆补偿控制。2.根据权利要求1所述的基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,步骤(1)所述激光雷达传感器用来探测道路上的动静态障碍物,包括行人、摩托车和各种车辆等,以及可行使道路区域;所述视觉传感器用来感知车道线、行人和车辆检测工作,以及进行定位和同步地图创建工作;所述毫米波雷达传感器用来探测车辆与行人和行驶的车辆间距;所述超声波雷达用来探测近距离车辆间距;所述视觉传感器、定位系统和惯性导航系统用来实现车辆定位技术。3.根据权利要求1所述的基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,步骤(2)所述的不同场景包括下雨雪天气下的跨海大桥路况、强风恶劣天气下的跨海大桥路况、晴天时桥梁振动时的路况、频繁多变天气下单车的行驶路况、频繁多变天气下多车的行驶路况五种场景。4.根据权利要求1所述的基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,步骤(3)所述数据集包括车速、行驶轨迹、车辆位置、航向角、滑移角、横摆角速度、侧倾角。5.根据权利要求1所述的基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,步骤(4)所述DDPG算法的网络设计如下:构建演员网络,以车辆状态和环境状态作为输入,输出是转向角、油门和制动信号组成的矢量,分别对应演员策略网络输出层的3个神经元,设定油门和制动的激活函数是Sigmoid,转向动作值的激活函数是Tanh,隐藏层的结构为:第一层是卷积大小是7*7,滤波器大小是48,步长是4,共200个神经元;第二层是卷积大小是5*5,滤波器大小是16,步长是2,激活函数是ReLu函数,共400个神经元;第三层增加了LSTM层100个神经元;第四层是128个单元的全连接层;第五层是全连接层,共128个单元;评论家网络输入为状态和动作空间,经过两层隐藏层,第一层200个神经元,第二层400个神经元,与激活函数ReLu拼接,最终得出Q值;定义h
i
∈(S
t
‑
T
,S
t
‑
T+1
,
…
,S
t
),其中,S
t
‑
T
和S
t
分别表示当前时刻和当前时刻的状态信
息,则编码后的状态是:s=f(h
i
;β),则变化后的演员网络的策略定义为:a=μ(h
i
/β,γ
π
)+η。6.根据权利要求1所述的基于DDPG和迭代控制的自动驾驶车辆侧倾控制方法,其特征在于,步骤(5)所述的实现对自动驾驶车辆正常行驶路况下路径轨迹的跟踪控制实现过程如下:正常行驶路况即晴天时桥梁振动时的路况,考虑车辆的侧倾、侧滑和横摆动力学特性,建立车辆动力学模型,并设置车辆状态约束条件,确定横向稳定性范围、最大转向角度范围和防止侧倾的可允许车辆控制的范围,以减少车辆的侧偏移误差:ω
z
‑
min
≤ω
z
≤ω
z
‑
max
,ω
x
‑
min
≤ω
x
≤ω
x
‑
max
,u
x
‑
min
≤u
x
≤u
x
‑
max
,e
r
‑
x
‑
min
≤e
r
≤e
r
‑
x
‑
max
式中,ω
z
是横摆角...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。