一种基于注意力机制的自适应光学变形镜控制方法技术

技术编号：41215589 阅读：4 留言：0更新日期：2024-05-09 23:37

本发明专利技术公开了一种基于注意力机制的自适应光学变形镜控制方法，涉及自适应光学控制技术领域。该方法通过在仿真环境中开环控制，获取到高性能的控制命令作为强化学习的数据集，经过迁移学习，使得强化学习模型能快速迁移到不同湍流环境下，并提升模型控制的鲁棒性。相较于传统波前校正，本发明专利技术能克服传统比例积分控制法无法有效应对湍流变化的情况的问题，且可以通过实际情况中的控制情况，对模型进行迁移训练，更为有效地扩展到不同湍流情况中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种自适应光学变形镜控制方法，尤其涉及一种基于注意力机制的自适应光学变形镜控制方法。

技术介绍

1、自适应光学是一种通过校正入射波前像差来改善光学系统性能的技术，能够有效的补偿光学相差，达到提高图像质量的效果。常规的ao系统包括波前校正器，波前探测器，波前控制器三部分，其中波前探测器用于探测入射波前的相位信息，波前控制器依据探测到的相位信息计算出需要校正的控制信号，波前校正器接收控制器指令对入射波前进行校正，补偿畸变波前。其中，波前控制器是其中较为重要的一部分，是实现波前校正高效、高性能的关键因素。

2、常规ao系统发展已相对成熟，在天文观测、激光光束、人眼医疗等领域得到了应用，但在传输路径上湍流较强、水平传输距离较长、暗弱目标以及显微成像等场景中，常规ao系统受限于波前传感器本身性能，无法准确获得波前信息，为控制变形镜增加了误差，无波前传感器ao(wfslessao)为这些场景中的应用提供了可能。wfslessao系统不需要波前探测环节，直接通过图像传感器获得的光强信息设计控制算法，产生波前校正器需要的控制信号，实现校正入射波前畸变像差。目前应用无波前传感器ao的优化算法有遗传算法，模拟退火算法，随机并行梯度下降算法，深度学习算法等，其中前面3种算法通过全局搜索，多次迭代，直接控制波前传感器对光学性能评价函数进行优化至收敛，而深度学习算法通过神经网络模型训练得到对波前控制器的控制命令，使用场景更加广泛，效果更好。

3、比例积分控制(pi)算法常用于波前校正，通过控制比例系数和积分系数来对波

技术实现思路

1、因此，本专利技术提出一种基于注意力机制的变形镜控制方法，通过生成理想中的控制数据用于对强化学习模型进行指导预训练提高模型学习速度，并使用注意力机制模型来进行控制以实现更好的变形镜控制。本专利技术的目的还在于提供一种基于注意力机制的自适应光学变形镜控制法，该方法结合开环情况下的高性能数据和强化学习模型，进行校正器控制。

2、本专利技术技术方案如下：

3、s1、设计基于演员-评论家算法的强化学习模型；

4、s2、在仿真环境下，针对每一帧湍流图像，进行开环控制，直到性能稳定，将得到的控制命令和其对应的初始psf图像配对放入经验池中；

5、s3、从经验池中获取s2中提供的数据集给强化学习模型，对强化模型进行预训练；

6、s4、将预训练后的强化学习模型接入环境中，根据接收到的图像信息，实时计算控制命令；

7、s5、根据s4计算的控制命令对变形镜进行控制

8、s6、将s4获得的控制命令和接受到的初始psf图像配对放入经验池中；

9、s7、对s2和s4中放入经验池中的数据集以不同权重的概率随机抽取对强化学习模型进行策略更新。

10、进一步，所述步骤1中的actor-critic算法分为两个神经网络，actor网络进行变形镜控制命令的计算，critic网络对actor控制命令的效果进行评估。

11、进一步，所述步骤2中的最优控制命令来源于仿真环境下，针对某一帧大气环境，经过波前传感器获取到波前斜率信息，并通过波前重构后进行变形镜控制，重复一定次数直到效果稳定得到的开环控制下最优效果。

12、进一步，所述步骤3中的训练强化学习模型采用深度确定性循环算法，将一定时间的收益定义为：

13、

14、其中，q表示收益，π表示进行的策略算法，t表示时间序列，γ表示未来的收益以一定比例衰减计算，st表示t时刻环境状态，st+i表示t+i时刻的环境状态，at表示当前t时刻做出的行动，at+i表示未来t+i时刻做出的行动，r函数表示在当前st环境下进行at行动获得的收益，ht表示t时刻以前的s和a的合集，τ表示大于t时刻的某时间，一般认为是最长序列对应的时间；est|ht表示在历史数据ht情况下出现st状态时的奖励期望值，eτ>t|ht,at表示在历史数据ht情况下做出动作at时，未来奖励值的期望值；通过计算一系列动作的收益总和，得到当前状态下执行某个动作的期望收益；对于某个确定的行动策略μ，通过以下方法更新：

15、

16、其中，μθ(s)表示在策略参数θ的情况下，输入状态s后的动作情况a，μθ(s)对θ求偏微分得到一个关于θ的表达式，qμ(s,a)表示输入状态s和动作a后计算出的价值函数，qμ(s,a)在a＝μθ(s)情况下对a求偏微分得到一个关于a的表达式，通过链式法则相乘得到qμ(s,a)对参数θ的表达式，表示状态s是在历史ρ中始终采用策略函数μ得到输出动作情况下产生的时候，对整个参数偏微分的期望值，j(θ)表示整个历史ρ中累计得到的奖励回报值总和，通过反向梯度传播进行更新网络。

17、进一步，所述本文档来自技高网...

【技术保护点】

1.一种基于注意力机制的自适应光学变形镜控制方法，其特征在于：所述方法包括如下步骤：

2.按照权利要求1所述的方法，其特征在于：所述步骤1中的actor-critic算法分为两个神经网络，Actor网络进行变形镜控制命令的计算，Critic网络对Actor控制命令的效果进行评估。

3.按照权利要求1所述的方法，其特征在于：所述步骤2中的最优控制命令来源于仿真环境下，针对某一帧大气环境，经过波前传感器获取到波前斜率信息，并通过波前重构后进行变形镜控制，重复一定次数直到效果稳定得到的开环控制下最优效果。

4.按照权利要求1所述的方法，其特征在于：所述步骤3中的训练强化学习模型采用深度确定性循环算法，将一定时间的收益定义为：

5.按照权利要求1所述的方法，其特征在于：所述步骤7中的更新模型，采用一定比例选择S2和S6中提供的数据集，用于保证在训练过程中不会受变化情况差异较大的大气环境影响导致模型泛化能力下降。

【技术特征摘要】

1.一种基于注意力机制的自适应光学变形镜控制方法，其特征在于：所述方法包括如下步骤：

2.按照权利要求1所述的方法，其特征在于：所述步骤1中的actor-critic算法分为两个神经网络，actor网络进行变形镜控制命令的计算，critic网络对actor控制命令的效果进行评估。

3.按照权利要求1所述的方法，其特征在于：所述步骤2中的最优控制命令来源于仿真环境下，针对某一帧大气环境，经过波前传感器获取到...

【专利技术属性】
技术研发人员：雷寅宵，李敏，江长春，
申请(专利权)人：中国科学院光电技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人