一种基于强化学习的阻抗匹配自动控制方法及系统技术方案

技术编号:33084338 阅读:18 留言:0更新日期:2022-04-15 10:44
本发明专利技术公开了一种基于强化学习的阻抗匹配自动控制方法及系统,其中,控制方法包括:电信号收集步骤,电信号判断步骤,模型输出步骤和阻抗调节步骤。本发明专利技术使用多个固定负载训练强化学习模型,训练后的模型适应性极强,在不同的电路状态下均能实现阻抗匹配;本发明专利技术仅通过采集并计算传输线上两个电信号之间的幅度比和相位差,依靠训练好的强化学习模型就能使等离子刻蚀系统一直处于阻抗匹配状态;本发明专利技术能控制2个电机同时转动,即同时改变2个电容的阻抗,使等离子刻蚀系统更快达到阻抗匹配状态。态。态。

【技术实现步骤摘要】
一种基于强化学习的阻抗匹配自动控制方法及系统


[0001]本专利技术属于工业智能制造领域,更具体地,涉及一种基于强化学习的阻抗匹配自动控制方法及系统。

技术介绍

[0002]在电子工业中,阻抗匹配是用来设计输入阻抗来达到最大化能量传输或者最小化负载的发射的一种方法。阻抗是电阻与电抗在向量上的和,阻抗匹配是信号源或者传输线跟负载之间的一种合适的搭配方式,如果阻抗不匹配,则会形成反射,会在传输线上形成驻波,导致传输线的有效功率容量降低,甚至会损坏发射设备。因此,阻抗匹配关系着系统的整体性能,实现匹配可使系统性能达到最优。
[0003]目前工业阻抗匹配领域通常采用的方案是采用单回路比例控制器实现阻抗匹配,该方案的缺点为:未考虑各个通道间的相互作用,当起始点远离匹配点时,会导致调谐失败。还有一种方案是采用层级反馈控制器实现阻抗匹配,即远离匹配点时进行单环调谐,当收敛到匹配点附近时,使用双重单环控制器进行微调。该方案需要使用两种传感器:电压

电流传感器和相位

增益传感器,传感器除了能收集网络的幅度比、相位差信号,还能收集电路中的电压、电流信号,根据这些信息可以计算整个电路当前的反射系数;然后通过控制调谐电容来减小反射系数,待网络收敛到匹配点附近后,再同时控制调谐电容和负载电容来微调电路使其达到匹配状态。
[0004]该方案为了计算电路的反射系数,使用了复杂的传感器结构,不仅增加了硬件成本,还增加了数据处理的计算量。此外,该方案中收敛到匹配点的算法较为复杂,分为只控制调谐电容的粗调算法,和同时控制两个电容的精调算法,不仅调节过程需要算法的切换,还增加了网络收敛到匹配点的耗时。
[0005]工业中急需一种不需要复杂的传感器结构,且算法较为简单的阻抗匹配自动控制方法。
[0006]为了便于理解本专利技术,以下对有关术语和相关概念进行解释:
[0007]电机位置数:一般用0到1000之间的一个整数值表达电机所处的位置,共有1001种位置;
[0008]阻抗匹配器:主要功能是使得所有高频的微波信号皆能传至负载点,不会有信号反射回源点;阻抗匹配器中有2个电容和2个电机;1个电容连接1个电机,每个电容上有一根电容杆,电机旋转可以带动电容杆的旋转,从而改变电容的阻抗。每个电容的阻抗范围平均分为1000份,每个电机的旋转范围也被限制在0到1000的整数值之间;电机的旋转到达0时,电容的阻抗到达最小值,电机的旋转到达1000时,电容的阻抗到达最大值;
[0009]等离子刻蚀系统:由射频电源,阻抗匹配器和等离子刻蚀机依次串联组成;工作时先抽空等离子刻蚀机内的空气,充入刻蚀使用的气体,在射频电源的作用下,等离子刻蚀机内的气体转化为等离子态进行刻蚀,此时需要阻抗匹配器不断调整自身的阻抗,以保证射频电源的输出功率尽可能多的传输到等离子刻蚀机;默认射频功放的内阻的阻抗为特征阻
抗Zo,Zo的值为50Ω,为了保证射频电源的输出功率尽可能多的传递到等离子刻蚀机,需要阻抗匹配器和等离子刻蚀机在串联后的等效阻抗等于特征阻抗Zo;
[0010]强化学习模型:强化学习是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题;强化学习的常见模型是标准的马尔可夫决策过程;强化学习模型类似一个智能系统,在老环境下会做出训练时的最优决策,在新环境下会进行简单的探索,并快速找到正确的决策方向。即使某一步的决策出现失误,也能快速调整匹配方向并找到匹配点;
[0011]Smith圆图:在反射系散平面上标绘有归一化输入阻抗等值圆族的计算图。是一款用于电机与电子工程学的图表,主要用于传输线的阻抗匹配上。

技术实现思路

[0012]针对现有技术的缺陷,本专利技术的目的在于提供一种基于强化学习的阻抗匹配自动控制方法及系统,旨在解决现有技术需要辅助硬件的支持且算法较为复杂的问题。
[0013]为实现上述目的,本专利技术提供了一种强化学习模型的训练方法,包括以下步骤:
[0014](1)数据采集步骤:
[0015]对每个训练系统采集一组训练数据;一组训练数据称为一个样本;所有的样本组成样本集,按设定的比例将样本集划分为训练集和测试集;将强化学习模型标记为待训练模型;
[0016]所述训练系统由射频电源与阻抗匹配器的输入端相连接,单个阻抗负载与阻抗匹配器的输出端相连接而组成;
[0017]所述阻抗负载是按以下操作而获得:将阻抗匹配器中第一电容和第二电容可变化的阻抗区间作为范围,在Smith圆图上取多个离散点;分别找到与每个点的阻抗值相等的阻抗负载;
[0018](2)训练步骤:
[0019]根据所述训练集对待训练模型进行训练,得到训练模型;
[0020](3)测试步骤:
[0021]根据所述测试集对训练模型进行测试,测试成功则判定所述训练模型为可实用强化学习模型;测试失败则将所述训练模型标记为待训练模型,重复依次执行步骤(2)至步骤(3),直到获得可实用强化学习模型;
[0022]优选地,所述数据采集步骤中每组训练数据包括的数据条数为电机位置数的平方;
[0023]所述数据采集步骤中单条训练数据的内容包括阻抗匹配器中第一电机的位置,阻抗匹配器中第二电机的位置,幅度比和相位差;所述幅度比和相位差为该训练系统的射频电源与阻抗匹配器之间传输线上的两个电信号之间的幅度比和相位差,其值依据两个电机位置的改变而改变。
[0024]优选地,所述训练步骤的具体过程为:按设定的训练次数,根据所述训练集对待训练模型进行训练,判定训练结束后的待训练模型为训练模型;
[0025]每一次训练包括以下操作:
[0026](1)随机取出训练集中的一个样本作为当前训练样本;在所述待训练模型中,随机
生成两个电机的位置作为它们的当前位置;
[0027](2)按设定的训练轮数进行训练,每一轮训练包括以下步骤:根据所述两个电机的当前位置,从所述当前训练样本中查找对应的幅度比和相位差,并送入待训练模型中;将待训练模型输出的两个值分别加到所述两个电机的当前位置的值上;
[0028]所述测试步骤的具体过程为:根据所述测试集对所述训练模型进行多次测试,若设定的测试次数结束之后,仍不能获得可实用强化学习模型,则将所述训练模型标记为待训练模型,重复依次执行训练步骤和测试步骤,直到获得可实用强化学习模型;
[0029]每一次测试包括以下操作:
[0030](1)随机取出测试集中一个样本作为当前测试样本;在所述训练模型中,随机生成两个电机的位置作为两个电机的此刻位置;
[0031](2)按设定的测试轮数进行测试,每一轮测试包括以下操作:
[0032](2

1)根据所述两个电机的此刻位置,从所述当前测试样本中查找对应的幅度比和相位差;判断所述幅度比和相位差的值是否均在设定的合格范围内,是则判定所述训练模型为可实用强化学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型的训练方法,其特征在于,包括以下步骤:(1)数据采集步骤:对每个训练系统采集一组训练数据;一组训练数据称为一个样本;所有的样本组成样本集,按设定的比例将样本集划分为训练集和测试集;将强化学习模型标记为待训练模型;所述训练系统由射频电源与阻抗匹配器的输入端相连接,单个阻抗负载与阻抗匹配器的输出端相连接而组成;所述阻抗负载是按以下操作而获得:将阻抗匹配器中第一电容和第二电容可变化的阻抗区间作为范围,在Smith圆图上取多个离散点;分别找到与每个点的阻抗值相等的阻抗负载;(2)训练步骤:根据所述训练集对待训练模型进行训练,得到训练模型;(3)测试步骤:根据所述测试集对训练模型进行测试,测试成功则判定所述训练模型为可实用强化学习模型;测试失败则将所述训练模型标记为待训练模型,重复依次执行步骤(2)至步骤(3),直到获得可实用强化学习模型。2.如权利要求1所述的强化学习模型的训练方法,其特征在于,所述数据采集步骤中每组训练数据包括的数据条数为电机位置数的平方;所述数据采集步骤中单条训练数据的内容包括阻抗匹配器中第一电机的位置,阻抗匹配器中第二电机的位置,幅度比和相位差;所述幅度比和相位差为该训练系统的射频电源与阻抗匹配器之间传输线上的两个电信号之间的幅度比和相位差,其值依据两个电机位置的改变而改变。3.如权利要求2所述的强化学习模型的训练方法,其特征在于,所述训练步骤的具体过程为:按设定的训练次数,根据所述训练集对待训练模型进行训练,判定训练结束后的待训练模型为训练模型;每一次训练包括以下操作:(1)随机取出训练集中的一个样本作为当前训练样本;在所述待训练模型中,随机生成两个电机的位置作为它们的当前位置;(2)按设定的训练轮数进行训练,每一轮训练包括以下步骤:根据所述两个电机的当前位置,从所述当前训练样本中查找对应的幅度比和相位差,并送入待训练模型中;将待训练模型输出的两个值分别加到所述两个电机的当前位置的值上;所述测试步骤的具体过程为:根据所述测试集对所述训练模型进行多次测试,若设定的测试次数结束之后,仍不能获得可实用强化学习模型,则将所述训练模型标记为待训练模型,重复依次执行训练步骤和测试步骤,直到获得可实用强化学习模型;每一次测试包括以下操作:(1)随机取出测试集中一个样本作为当前测试样本;在所述训练模型中,随机生成两个电机的位置作为两个电机的此刻位置;(2)按设定的测试轮数进行测试,每一轮测试包括以下操作:(2

1)根据所述两个电机的此刻位置,从所述当前测试样本中查找对应的幅度比和相位差;判断所述幅度比和相位差的值是否均在设定的合格范围内,是则判定所述训练模型
为可实用强化学习模型,结束;否则执行操作(2

2);(2

2)将操作(2

1)中查找到的幅度比和相位差送入所述训练模型中;将所述训练模型输出的两个值分别加到所述两个电机的此刻位置的值上。4.一种基于权利要求1所述的可实用强化学习模型的阻抗匹配自动控制方法,该方法用于等离子刻蚀系统的工作全过程,其特征在于,包括以下步骤:(1)电信号收集步骤:按设定的时间间隔收集射频电源或等离子刻蚀机与阻抗匹配器之间的传输线上的两个电信号,并计算它们之间的幅度比和相位差;(2)电信号判断步骤:判断所述幅度比和相位差是否均在设定的电压范围之内,如不是,执行步骤(3),否则执行步骤(1);(3)模型输出步骤:将所述幅度比和相位差输入到所述强化学习模型中,强化学习模型分别输出阻抗匹配器中两个电机的旋转范围;(4)阻抗调节步骤:对所述两个电机的旋转范围进行四舍五入取整;根据取整后的两个电机的旋转范围分别控制两个电机的旋转,带动阻抗匹配器中两个电容的电容杆的旋转;然后执行步骤(1)。5.一种强化学习模型的训练系统,其特征在于,包括以下模块:(1)数据采集模块:用于对每个训练系统采集一组训练数据;一组训练数据称为一个样本;所有的样本组成样本集,按设定的比例将样本集划分为训...

【专利技术属性】
技术研发人员:易俊殷晓君雷力胡海
申请(专利权)人:武汉光目科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1