一种基于强化学习的阻抗匹配自动控制方法及系统技术方案

技术编号：33084338 阅读：18 留言：0更新日期：2022-04-15 10:44

本发明专利技术公开了一种基于强化学习的阻抗匹配自动控制方法及系统，其中，控制方法包括：电信号收集步骤，电信号判断步骤，模型输出步骤和阻抗调节步骤。本发明专利技术使用多个固定负载训练强化学习模型，训练后的模型适应性极强，在不同的电路状态下均能实现阻抗匹配；本发明专利技术仅通过采集并计算传输线上两个电信号之间的幅度比和相位差，依靠训练好的强化学习模型就能使等离子刻蚀系统一直处于阻抗匹配状态；本发明专利技术能控制2个电机同时转动，即同时改变2个电容的阻抗，使等离子刻蚀系统更快达到阻抗匹配状态。态。态。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的阻抗匹配自动控制方法及系统

[0001]本专利技术属于工业智能制造领域，更具体地，涉及一种基于强化学习的阻抗匹配自动控制方法及系统。

技术介绍

[0002]在电子工业中，阻抗匹配是用来设计输入阻抗来达到最大化能量传输或者最小化负载的发射的一种方法。阻抗是电阻与电抗在向量上的和，阻抗匹配是信号源或者传输线跟负载之间的一种合适的搭配方式，如果阻抗不匹配，则会形成反射，会在传输线上形成驻波，导致传输线的有效功率容量降低，甚至会损坏发射设备。因此，阻抗匹配关系着系统的整体性能,实现匹配可使系统性能达到最优。
[0003]目前工业阻抗匹配领域通常采用的方案是采用单回路比例控制器实现阻抗匹配，该方案的缺点为：未考虑各个通道间的相互作用，当起始点远离匹配点时，会导致调谐失败。还有一种方案是采用层级反馈控制器实现阻抗匹配，即远离匹配点时进行单环调谐，当收敛到匹配点附近时，使用双重单环控制器进行微调。该方案需要使用两种传感器：电压
‑
电流传感器和相位
‑
增益传感器，传感器除了能收集网络的幅度比、相位差信号，还能收集电路中的电压、电流信号，根据这些信息可以计算整个电路当前的反射系数；然后通过控制调谐电容来减小反射系数，待网络收敛到匹配点附近后，再同时控制调谐电容和负载电容来微调电路使其达到匹配状态。
[0004]该方案为了计算电路的反射系数，使用了复杂的传感器结构，不仅增加了硬件成本，还增加了数据处理的计算量。此外，该方案中收敛到匹配点的算法较为复杂，分为只控制调谐电...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型的训练方法，其特征在于，包括以下步骤：(1)数据采集步骤：对每个训练系统采集一组训练数据；一组训练数据称为一个样本；所有的样本组成样本集，按设定的比例将样本集划分为训练集和测试集；将强化学习模型标记为待训练模型；所述训练系统由射频电源与阻抗匹配器的输入端相连接，单个阻抗负载与阻抗匹配器的输出端相连接而组成；所述阻抗负载是按以下操作而获得：将阻抗匹配器中第一电容和第二电容可变化的阻抗区间作为范围，在Smith圆图上取多个离散点；分别找到与每个点的阻抗值相等的阻抗负载；(2)训练步骤：根据所述训练集对待训练模型进行训练，得到训练模型；(3)测试步骤：根据所述测试集对训练模型进行测试，测试成功则判定所述训练模型为可实用强化学习模型；测试失败则将所述训练模型标记为待训练模型，重复依次执行步骤(2)至步骤(3)，直到获得可实用强化学习模型。2.如权利要求1所述的强化学习模型的训练方法，其特征在于，所述数据采集步骤中每组训练数据包括的数据条数为电机位置数的平方；所述数据采集步骤中单条训练数据的内容包括阻抗匹配器中第一电机的位置，阻抗匹配器中第二电机的位置，幅度比和相位差；所述幅度比和相位差为该训练系统的射频电源与阻抗匹配器之间传输线上的两个电信号之间的幅度比和相位差，其值依据两个电机位置的改变而改变。3.如权利要求2所述的强化学习模型的训练方法，其特征在于，所述训练步骤的具体过程为：按设定的训练次数，根据所述训练集对待训练模型进行训练，判定训练结束后的待训练模型为训练模型；每一次训练包括以下操作：(1)随机取出训练集中的一个样本作为当前训练样本；在所述待训练模型中，随机生成两个电机的位置作为它们的当前位置；(2)按设定的训练轮数进行训练，每一轮训练包括以下步骤：根据所述两个电机的当前位置，从所述当前训练样本中查找对应的幅度比和相位差，并送入待训练模型中；将待训练模型输出的两个值分别加到所述两个电机的当前位置的值上；所述测试步骤的具体过程为：根据所述测试集对所述训练模型进行多次测试，若设定的测试次数结束之后，仍不能获得可实用强化学习模型，则将所述训练模型标记为待训练模型，重复依次执行训练步骤和测试步骤，直到获得可实用强化学习模型；每一次测试包括以下操作：(1)随机取出测试集中一个样本作为当前测试样本；在所述训练模型中，随机生成两个电机的位置作为两个电机的此刻位置；(2)按设定的测试轮数进行测试，每一轮测试包括以下操作：(2
‑
1)根据所述两个电机的此刻位置，从所述当前测试样本中查找对应的幅度比和相位差；判断所述幅度比和相位差的值是否均在设定的合格范围内，是则判定所述训练模型
为可实用强化学习模型，结束；否则执行操作(2
‑
2)；(2
‑
2)将操作(2
‑
1)中查找到的幅度比和相位差送入所述训练模型中；将所述训练模型输出的两个值分别加到所述两个电机的此刻位置的值上。4.一种基于权利要求1所述的可实用强化学习模型的阻抗匹配自动控制方法，该方法用于等离子刻蚀系统的工作全过程，其特征在于，包括以下步骤：(1)电信号收集步骤：按设定的时间间隔收集射频电源或等离子刻蚀机与阻抗匹配器之间的传输线上的两个电信号，并计算它们之间的幅度比和相位差；(2)电信号判断步骤：判断所述幅度比和相位差是否均在设定的电压范围之内，如不是，执行步骤(3)，否则执行步骤(1)；(3)模型输出步骤：将所述幅度比和相位差输入到所述强化学习模型中，强化学习模型分别输出阻抗匹配器中两个电机的旋转范围；(4)阻抗调节步骤：对所述两个电机的旋转范围进行四舍五入取整；根据取整后的两个电机的旋转范围分别控制两个电机的旋转，带动阻抗匹配器中两个电容的电容杆的旋转；然后执行步骤(1)。5.一种强化学习模型的训练系统，其特征在于，包括以下模块：(1)数据采集模块：用于对每个训练系统采集一组训练数据；一组训练数据称为一个样本；所有的样本组成样本集，按设定的比例将样本集划分为训...

【专利技术属性】
技术研发人员：易俊，殷晓君，雷力，胡海，
申请(专利权)人：武汉光目科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人