【技术实现步骤摘要】
一种基于深度确定性策略梯度的自适应控制方法
:本申请涉及计算机软件
,具体涉及一种基于深度强化学习技术的自适应控制方法。
技术介绍
:传统的PID控制器需要系统进行精确建模,并通过拉普拉斯变换将时域模型转换为频域传递函数,再根据根轨迹等方法设计经典PID控制器,该种方法缺点在于非线性问题需要进行线性假设,建模过程较为复杂,并且控制器设计的好坏依赖于所抽象的数学模型精确程度。本申请所要解决的问题是如何解决非线性系统的控制问题,并且不依赖于精确的数学模型,构建一种无模型控制方法。
技术实现思路
本申请的目的是提出一种基于深度强化学习技术的自适应控制方法。解决非线性系统的控制问题,并且不依赖于精确的数学模型,构建一种无模型控制方法。本申请的技术方案包括以下步骤:一种基于深度确定性策略梯度的自适应控制方法,其特征在于:它包括以下步骤:1)首先依据真实系统特性构建仿真训练环境,仿真训练环境与真实系统保持一致,使环境与强化学习训练进行交互;2)分别构建状态,回报,动作和截止条件作 ...
【技术保护点】
1.一种基于深度确定性策略梯度的自适应控制方法,其特征在于:它包括以下步骤:/n1)首先依据真实系统特性构建仿真训练环境,仿真训练环境与真实系统保持一致,使环境与强化学习训练进行交互;/n2)分别构建状态,回报,动作和截止条件作为深度强化学习的训练要素,动作区间:a∈[A
【技术特征摘要】
1.一种基于深度确定性策略梯度的自适应控制方法,其特征在于:它包括以下步骤:
1)首先依据真实系统特性构建仿真训练环境,仿真训练环境与真实系统保持一致,使环境与强化学习训练进行交互;
2)分别构建状态,回报,动作和截止条件作为深度强化学习的训练要素,动作区间:a∈[Amin,Amax],根据真实系统进行控制指令限幅;
3)构建critic网络、actor网络和相应的critic-target网络、actor-target网络,上述网络形成神经网络;
4)对critic网络和actor网络进行若干轮训练;本轮训练结束,开始下一轮训练;
5)使用训练结果actor网络作为控制器。
2.根据权利要求1所述的一种基于深度确定性策略梯度的自适应控制方法,其特征在于:所述状态,回报,动作和截止条件分别为状态state:以当前值truevalue,误差值error=reference–truevalue和误差的积分∫edt作为状态量state;
回报:reward=10(|e|<0.1)-1(|e|≥0.1)-100(truevalue≤min||truevalue≥max)如果实际值小于最小值min或最大值max,则回报为-100;如果误差绝对值大于0.1,则回报值为-1;如果误差绝对值小于0.1,则回报值为+10;
截至条...
【专利技术属性】
技术研发人员:卢旺,孟凡石,孙继泽,
申请(专利权)人:沈阳航盛科技有限责任公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。