一种基于柔性轴的矢量推进器控制系统及方法技术方案

技术编号：40601166 阅读：7 留言：0更新日期：2024-03-12 22:05

本发明专利技术公开了一种基于柔性轴的矢量推进器控制系统及方法，包括系统建模模块、奖励函数模块、学习模块、训练模块和执行策略模块，具体而言，该方法首先定义柔性轴的状态空间和动作空间，并设计相应的奖励函数，然后，构建策略网络和价值网络的深度神经网络架构，策略网络接收当前状态作为输入，并输出动作的概率分布，在训练阶段，初始化网络参数，并根据当前状态使用策略网络选择动作，并执行在柔性轴上，使用PPO算法更新策略网络的参数以最大化预期奖励，并使用蒙特卡洛方法更新价值网络的参数以减小估计值与实际回报的差距，训练结束后，根据训练得到的最优控制策略，执行姿态调整和推力控制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及船舶控制，尤其是一种基于柔性轴的矢量推进器控制系统及方法。

技术介绍

1、传统的控制方法通常基于预先设计的模型或规则，对于柔性轴矢量推进器这种复杂、非线性的系统往往难以建立准确的模型，

2、离散动作空间的限制：传统控制方法中常用的离散动作空间限制了对柔性轴姿态和推力的精确控制；

3、缺乏自适应性和鲁棒性：传统控制方法通常需要事先调整参数或手动设计控制策略，对于不同工况和环境变化的适应性有限；

4、多智能体协同控制的困难：柔性轴矢量推进器系统中涉及多个推进器的协同控制是一个挑战，传统的分散式控制方法通常需要设计复杂的通信和协调机制。

5、本专利技术针对提出上述缺点提出解决方案为：

6、强化学习通过与环境的交互学习最优策略，不需要依赖精确的模型，能够更好地适应柔性轴推进器的特性，而强化学习算法能够根据奖励信号进行自适应调整，实时优化控制策略，并通过实时训练提高鲁棒性，采用连续动作空间处理的方法，可以更灵活地选择柔性轴的动作，并避免了离散化带来的信息损失，例如，确定性策略梯度算法能够直接输出连续的动作值，提高控制精度；

7、具体为：系统建模搭建：定义柔性轴的状态空间，并根据需求将其离散化或连续化处理，状态包括位置、姿态和推力等参数；

8、设计柔性轴的动作空间，如弯曲角度或扭转力矩的范围，确保动作空间能够覆盖所需的姿态调整和推力控制范围；

9、建立奖励函数，用于评估柔性轴在不同状态下采取的动作好坏程度，奖励函数应考虑期望位置附近

10、强化学习模型构建：

11、构建策略网络(actor)和价值网络(critic)的深度神经网络架构；

12、策略网络接收当前状态作为输入，并输出动作的概率分布，价值网络评估状态-动作对的价值；

13、选择适合柔性轴矢量推进器控制的强化学习算法，如ppo算法，并设置超参数；

14、训练强化学习模型：

15、初始化策略网络和价值网络的参数，并将其作为训练的初始状态；

16、在每个时间步骤中，根据当前状态使用策略网络选择动作，并执行在柔性轴上；

17、接收环境的反馈信息，包括新的状态和即时奖励；

18、使用ppo算法更新策略网络的参数，以最大化预期奖励；

19、使用蒙特卡洛方法更新价值网络的参数，减小价值估计与实际回报的差距；

20、通过不断重复以上步骤，直到达到预设的训练次数或满足收敛条件；

21、控制策略执行：

22、在训练结束后，根据训练得到的最优控制策略，利用策略网络选择最优动作；

23、根据当前状态和策略网络输出的动作，控制柔性轴矢量推进器执行相应的姿态调整和推力控制；

24、实时监测柔性轴的状态，并根据需要进行实时调整和反馈控制。

技术实现思路

1、本专利技术为了解决上述存在的技术问题，提供一种基于柔性轴的矢量推进器控制系统及方法。

2、本专利技术的技术方案是是这样实现的：一种基于柔性轴的矢量推进器控制系统及方法，包括，所述一种基于柔性轴的矢量推进器控制系统，包括系统建模模块、奖励函数模块、学习模块、训练模块、执行策略模块；

3、所述系统建模模块与奖励函数模块连接，用于定义柔性轴的状态空间和动作空间，为奖励函数模块提供基本框架；柔性轴的状态空间，包括位置、姿态和推力等参数；柔性轴的动作空间，如弯曲角度或扭转力矩范围；

4、所述奖励函数模块与系统建模模块、学习模块连接，用于评估柔性轴在不同状态和动作下的表现，考虑柔性轴的位置偏离目标位置的距离、姿态误差的大小、能耗的大小等因素；

5、所述学习模块与奖励函数模块、学习模块连接，用于构建策略网络(actor)和价值网络(critic)的深度神经网络架构；策略网络接收当前状态作为输入，并输出动作的概率分布，价值网络评估状态-动作对的价值；不断收集新的状态-动作对和奖励信号，用于在线学习和调整模型参数；

6、所述训练模块与学习模块、执行策略模块连接，用于初始化策略网络和价值网络的参数，并将其作为训练的初始状态，接收环境的反馈信息，包括新的状态和即时奖励，使用强化学习算法(如ppo)更新策略网络的参数，以最大化预期奖励，使用蒙特卡洛方法更新价值网络的参数，减小估计值与实际回报的差距；

7、所述执行策略模块与训练模块连接，用于在训练结束后，根据训练得到的最优控制策略，利用策略网络选择最优动作，根据当前状态和策略网络输出的动作，控制柔性轴矢量推进器执行相应的姿态调整和推力控制。

8、所述一种基于柔性轴的矢量推进器控制方法：

9、s1、定义柔性轴的状态空间，状态包括位置、姿态和图例参数，设计弯曲角度与扭转力矩范围；

10、s2、建立奖励函数，用于评估柔性轴的动作好坏程度；

11、s3、构建策略网络(actor)和价值网络(critic)的深度神经网络架构，输出动作的概率分布；

12、s4、初始化策略网络和价值网络的参数，并将其作为训练的初始状态，在每个时间步骤中，根据当前状态使用策略网络选择动作，并执行在柔性轴上，接收到反馈信息后使用ppo算法更新策略网络的参数，使用蒙特卡洛方法更新价值网络的参数；

13、s5、训练结束后根据训练得到的最优控制策略，利用策略网络选择最优动作。

14、具体计算过程为：

15、s1.定义柔性轴的状态空间，状态包括位置、姿态和图例参数，设计弯曲角度与扭转力矩范围：

16、柔性轴的状态空间定义为：s＝{p,θ,λ}，其中p表示位置，θ表示姿态，λ表示图例参数；

17、弯曲角度范围设定为[-θ_max,θ_max]，表示柔性轴可弯曲的最大角度；

18、扭转力矩范围设定为[-τ_max,τ_max]，表示柔性轴可施加的最大扭转力矩；

19、s2.建立奖励函数，用于评估柔性轴的动作好坏程度：

20、预设柔性轴当前状态为s，执行的动作为a，即根据策略网络输出的动作概率分布选择的动作；

21、奖励函数r(s,a)用于评估柔性轴在特定状态和动作下的表现；

22、具体的奖励函数设计取决于具体任务需求，考虑柔性轴的位置偏离目标位置的距离、姿态误差的大小、能耗的大小等因素；

23、s3.构建策略网络(actor)和价值网络(critic)的深度神经网络架构，输出动作的概率分布：

24、策略网络接收柔性轴的当前状态s作为输入，并输出一个动作a的概率分布π(a|s)；

25、策略网络的输出可以使用softmax函数处理，使得所有动作的概率之和为1；

26、价值网络根据柔性轴的当前状态s和动作a，估计其在当前状态下采取该动作的长期回报期望值v(s本文档来自技高网...

【技术保护点】

1.一种基于柔性轴的矢量推进器控制系统，其特征在于：包括系统建模模块、奖励函数模块、学习模块、训练模块、执行策略模块；

2.一种基于柔性轴的矢量推进器控制方法，其特征在：所述一种基于柔性轴的矢量推进器控制方法：

3.根据权利要求2所述的一种基于柔性轴的矢量推进器控制方法，其特征在于：所述S3步骤中构建策略网络(Actor)和价值网络(Critic)的深度神经网络架构：

4.根据权利要求2所述的一种基于柔性轴的矢量推进器控制方法，其特征在于：所述在S4步骤中使用PPO算法更新策略网络的参数θ以最大化期望奖励，同时使用蒙特卡洛方法更新价值网络的参数ω来减小估计值与实际回报的差距的过程：

5.根据权利要求2所述的一种基于柔性轴的矢量推进器控制方法，其特征在于：所述PPO算法控制更新步长，利用KL散度来限制策略网络的更新范围，引入一个超参数ε，表示允许的最大KL散度值；

【技术特征摘要】

1.一种基于柔性轴的矢量推进器控制系统，其特征在于：包括系统建模模块、奖励函数模块、学习模块、训练模块、执行策略模块；

2.一种基于柔性轴的矢量推进器控制方法，其特征在：所述一种基于柔性轴的矢量推进器控制方法：

3.根据权利要求2所述的一种基于柔性轴的矢量推进器控制方法，其特征在于：所述s3步骤中构建策略网络(actor)和价值网络(critic)的深度神经网络架构：

4...

【专利技术属性】
技术研发人员：董良雄，李聚保，滕宪斌，毕齐林，干鑫华，李诏贤，李行行，
申请(专利权)人：广州航海学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人