【技术实现步骤摘要】
一种基于强化学习的MEMS陀螺仪控制与补偿方法
[0001]本专利技术涉及一种基于强化学习技术的微机械
(MEMS)
陀螺仪的智能控制和误差补偿方法,尤其涉及一种采用强化学习理论对
MEMS
陀螺仪进行自适应的智能控制与误差补偿的方法,属于微机电系统控制
。
技术介绍
[0002]陀螺仪是一种用于实时检测角速率的传感器,是惯性导航系统重要的组成器件
。
随着集成电路技术的发展以及微机械加工技术的进步,出现了融合半导体制造技术和微精密机械加工技术等先进技术的微机电系统
(Micro
‑
Electro
‑
Mechanical System
,简称
MEMS)
技术
。MEMS
陀螺仪是
MEMS
技术在惯性导航领域的一个重要应用
。
[0003]MEMS
陀螺仪的机械结构包括驱动和检测两个工作模态,当质量块沿着驱动模态振动时,利用哥氏
...
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习的
MEMS
陀螺仪控制与补偿方法,其特征在于:包括如下步骤,步骤一:建立
MEMS
陀螺仪检测精度问题模型;
MEMS
陀螺仪检测精度问题包括控制问题与补偿问题,控制问题基于闭环控制实现,补偿问题基于电子信号处理算法实现;为实现一体化的
MEMS
陀螺仪控制与补偿系统,将
MEMS
陀螺仪的控制问题和补偿问题用质量块的运动轨迹跟踪问题表示;通过将
MEMS
陀螺仪检测精度问题模型离散化,实现数字电路处理;将
MEMS
陀螺仪检测精度问题模型分解为四个部分:
MEMS
陀螺仪精度问题模型输入
、MEMS
陀螺仪精度问题模型输出
、
跟踪控制误差和跟踪控制目标;步骤二:建立
MEMS
陀螺仪检测精度问题模型与马尔科夫决策模型的映射关系,将检测精度问题模型转化为马尔科夫决策问题模型;步骤三:采用
DDPG
算法,构建动作网络
Actor
和评价网络
Critic
,用神经网络方法拟合决策过程,寻找最优的动作策略;基于步骤二将
MEMS
陀螺仪质量块的运动轨迹控制检测问题转化成马尔可夫过程模型,并在此基础上对转化后的马尔可夫过程模型的目标函数进行进一步简化,通过固定策略选择,实现状态空间和动作空间的映射;基于
Actor
‑
Critic
网络,确定最优的目标策略;步骤四:在步骤三中构建好
Actor
‑
Critic
网络结构后,将获得的
Actor
‑
Critic
网络署到
MEMS
陀螺仪控制电路的
FPGA
芯片中,控制外围电路对
MEMS
陀螺仪施加驱动静电力,通过检测电路获取质量块的位置信息,完成对
MEMS
陀螺仪的智能控制与补偿;神经网络根据步骤三进行在线的迭代训练,从环境的变化和交互中,学习最优的控制策略,实现驱动力对环境变化的自动跟随,确保陀螺仪的驱动模态运动状态稳定;根据步骤一中的动力学方程结合对陀螺仪测量给出步骤二中的状态转移矩阵,获得对陀螺仪的检测输出运动状态的预测,通过预测对实际位移测量信号进行补偿,根据检测信号的特征不同从而智能识别出检测输出信号中的正交误差信号和振动冲击信号,分离出哥氏信号,进一步提高
MEMS
陀螺仪检测的精度
。2.
如权利要求1所述的一种基于强化学习的
MEMS
陀螺仪控制与补偿方法,其特征在于:步骤一实现方法为,步骤
1.1
:
MEMS
陀螺仪检测精度问题模型的输入是驱动的静电力,通过相位和幅值对静电力的大小和方向进行控制;时间离散化表示为输入向量其中
V
k
是驱动静电力的幅值,是驱动静电力的相位,下标
k
表示是当前的第
k
个时间步;步骤
1.2
:确定
MEMS
陀螺仪检测精度问题模型的输出;
MEMS
陀螺仪的驱动问题表现为质量块在驱动轴的运动情况,检测问题表现为检测轴的运动情况,因此
MEMS
陀螺仪检测精度问题模型的输出能够用当前时间步下质量块的运动状态表示,运动状态包括驱动轴方向的位移,驱动轴方向的速度,检测轴方向位移,检测轴方向速度;向量表示为
η
k
=
[x
k
,
y
k
,
vx
k
,
vy
k
]
T
,其中
x
k
是质量块在驱动轴方向上的位移,
y
k
是质量块在检测轴方向上的位移,
vx
k
、
,
vy
k
分别是当前质量块驱动轴和检测轴方向上运动的速度;步骤
1.3
:确定
MEMS
陀螺仪检测精度问题模型的跟踪控制误差;
MEMS
陀螺仪检测精度问题模型的输入与输出存在的动力学关系由下式给出;
式中,
m
x
、m
y
和
m
c
分别为驱动模态
、
检测模态和哥氏质量块的等效质量;
c
xx
、k
xx
和
c
yy
、k
yy
分别为驱动模态和检测模态的实际阻尼
、
刚度系数;
Ω
z
为输入角速度;
x
和
y
分别为驱动和检测方向的位移;
F
dx
为驱动静电力;根据输入向量
F
k
,得到质量块位移参考
d
′
k
=
[x
′
k
,y
′
k
]
T
,设陀螺仪质量块位置为
d
k
=
[x
k
,
y
k
]
T
则第
k
时间步的跟踪误差表示为:
e
k
=
[d
k
‑
d
′
k
]
T
步骤
1.4
:确定
MEMS
陀螺仪检测精度问题模型的目标;
MEMS
陀螺仪检测精度问题模型的目标是实现对质量块轨迹的跟踪控制,通过构造轨迹跟踪控制的目标函数确定模型的跟踪控制目标;根据步骤
1.3
中给出的跟踪控制误差,可以构建以下形式的目标函数;其中,
γ
是折扣因子,
H
为权重矩阵;由此建立轨迹跟踪控制的目标就是找到一个最优驱动信号输入序列
u
*
使得初始时刻的目标函数
J0(u)
最小,计算公式表示如下:
u
*
=
arg min J0(u)。3.
如权利要求2所述的一种基于强化学习的
MEMS
陀螺仪控制与补偿方法,其特征在于:步骤二实现方法为,步骤
2.1
:确定马尔科夫决策模型的状态向量;
MEMS
陀螺仪的质量块的运动轨迹控制跟踪问题符合马尔科夫决策过程,具有连续的状态空间,结合轨迹跟踪问题中的输出和参考位移轨迹,时间离散化后给出第
k
个时间步下当前的状态向量:步骤
2.2
:确定马尔科夫决策模型的动作向量;
MEMS
陀螺仪的质量块的运动轨迹控制跟踪问题的动作空间也是连续的,其动作表现为驱动静电力,由于静电力是一个正弦信号,静电力通过相位和幅值组成的向量表示,即
A
k
=
F
k
;步骤
2.3
:确定马尔科夫决策模型的奖励函数;基于步骤
1.4
构建的目标函数评价控制策略的优劣,在马尔科夫决策模型中,通过奖励函数实现动作与状态间交互的反馈;对于第
k
个时间步,采用的每个动作获得的奖励表示为步骤
2.4
:寻找马尔科夫决策模型的最优策略;将
MEMS
陀螺仪检测精度问题转化成马尔科夫决策模型后,采用强化学习算法寻找获得马尔科夫决策模型的最优策略;但是在马尔科夫决策模型中,智能体在同一状态处,采用的动作是基于概率分布的,而
MEMS
陀螺仪检测精度问题模型转化成的马尔科夫决策模型,由于其动作空间和状态空间都是连续的,会造成维度爆炸现象,转化后的马尔科夫决策模型规模会巨大到无法求解;使用的
DDPG
算法采用确定性的策略,即在每个固定状态采用当前概率最大的动作,在同一个状态下,选择的动作变为唯一,马尔科夫决策模型的状态空间和动作空间变为一一对应的映射关系;定义策略
π
为在某一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。