一种适用于复杂未知环境的自适应SAC-PID方法技术

技术编号:29960028 阅读:32 留言:0更新日期:2021-09-08 09:17
一种适用于复杂未知环境的自适应SAC

【技术实现步骤摘要】
一种适用于复杂未知环境的自适应SAC

PID方法


[0001]本专利技术涉及一种自适应SAC

PID方法。

技术介绍

[0002]比例

积分

微分控制器(PID)由于其结构简单、鲁棒性强、适应性强,被广泛应用于工业控制和机器人控制中。实际上,传统的PID控制采用经验整定的方法来调整PID参数,从而获得较为合适的PID控制器。但是在面对不断变化的环境时,经验整定的方法变得捉襟见肘。Onat等研究人员在2018年发表了Anew design method for PI

PD control of unstable processes with dead time,基于稳定边界轨迹,提出了一种获得PI

PD控制器参数稳定域的图形化方法。然而该方法需要大量复杂的计算和精确的建模,因此该方法不适合移植,泛化性较差。除此之外,该方法只能保证系统的稳定性,而在实施时并不能保证得到最优PID参数。
[0003]随着人工智能的发展,深度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种适用于复杂未知环境的自适应SAC

PID方法,其特征在于,包括如下步骤:步骤一、利用机器人仿真平台搭建循线机器人的环境;其中,机器人仿真环境包括带RGB相机的移动机器人模型和路径模型,并将移动机器人置于路径的起始位置(x0,y0,z0)为路径起点坐标;步骤二、基于深度强化学习Soft Actor

Critic(SAC)构建深度神经网络模型;其中,所述深度神经网络模型包括:决策网络π(φ),状态价值函数网络V(ψ)和动作价值函数网络Q(θ
i
),i∈{1,2}。φ,ψ,θ
i
分别为决策网络,状态价值函数网络和动作价值函数网络的参数;步骤三、定义移动机器人循迹时的状态表征值;其中,所述移动机器人状态表征值包括:轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(x
i
,y
i
),i∈{1,2,3,4,5};轨迹斜率和移动机器人的实时曲率之差e
c
;移动机器人的实时线速度v
t
和角速度ω
t
;步骤四、在步骤一中搭建的仿真环境中训练训练深度神经网络模型,具体包括如下子步骤:4.1:构建并初始化步骤二中的四个深度神经网络模型;初始化一个空的经验回放池R;构造两个结构相同的增量PID控制器,分别为主控PID控制器和辅控PID控制器。设置回合数为n=0,总回合数为N,令初始时刻t=1;4.2:利用步骤一中的RGB相机获得h
×
w的RGB图像I
t
,并预处理I
t
得到路径跟踪信息,并根据步骤三得到t时刻的状态s
t
=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,e
c
,v
t

t
];4.3:将步骤4.2中的s
t
输入决策网络π(φ),根据式(1)输出六维PID参数K
t
={k
mp
,k
mi
,k
md
,k
cp
,k
ci
,k
cd
},{k
mp
,k
mi
,k
md
}是主控PID控制器的比例、积分和微分参数,{k
cp
,k
ci
,k
cd
}是辅控PID控制器的比例、积分和微分参数;其中,ε
t
是从一个正态分布N中采样的噪声向量,是决策网络(高斯分布)的均值,是决策网络(高斯分布)的方差;从而根据式(2)计算移动机器人的角速度:ω
t
=ω
t
‑1+Δω
m
+ηΔω
c
ꢀꢀ
(2)其中ω
t
‑1是t

1时刻的角速度,Δω
m
为主控PID控制器的输出,可由式(3)计算得到,Δω
c
为辅控PID控制器的输出,可由式(4)计算得到,η为比例系数。Δω
c
=k
cp
[e
c
(t)

e
c
(t

1)]+k
ci
e
c
(t)+k
cd
[e
c
(t)

2e
c
(t

1)+e
c
(t

2)]
ꢀꢀ
(4)其中e
m
=x4,e
m
(t),e
m
(t

1)和e
m
(t

2)分别是t,t

1和t

2时刻的e
m
;e
c
(t),e
c
(t

1)和e
c
(t

2)分别是t,t

1和t

2时刻的e
c
;4.4:根据步骤4.3中的e
m
(t)计算移动机器人的线速度:v
t


a
x
|e
m
(t)|+b
x
ꢀꢀ
(5)其中,a
x
和b
x
为限制移动机器人线速度的系数。4.5:移动机器人执行角速度ω
t
和线速度v
t
,记录执行动作后重复步骤4.2得到移动机
器人观测的状态s
t+1
,并根据s
t+1
和式(6)计算奖励函数r(t),根据式(6)记录回合结束标志F;其中s(w),v(w)分别是第w个回合时循迹的路程和平均速度;β1,β2,β3分别是e
m
(t),e
m
(t

1)和e
m
(t

2)的比例系数;ζ
r
,ζ
v
,ζ
s
分别是每一项的权重系数;g为正奖励常数;4.6:将元组(s
t
,K
...

【专利技术属性】
技术研发人员:樊越海阮雨迪徐思宇禹鑫燚欧林林
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1