控制模型优化的方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：43896942 阅读：24 留言：0更新日期：2025-01-03 13:10

本申请涉及机器学习技术领域，具体提供了一种控制模型优化的方法、装置、设备、存储介质及产品。其中，该方法包括：根据环境交互数据中各时刻的环境状态、设备动作以及预期折扣成本，构建控制模型的约束方程，并根据环境交互数据，求解控制模型的目标函数在约束方程的条件下的最优解，获得目标模型参数，进而获得优化后的目标控制模型，这样，结合了预期折扣奖励和预期折扣成本，对模型进行优化，提高了目标控制模型的控制性能，进而可以保证飞行设备飞行的安全性以及稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习，具体涉及一种控制模型优化的方法、装置、设备、存储介质及产品。

技术介绍

1、在飞行设备(如，飞行器)的飞行控制场景中，通常通过设置有控制模型的控制系统，控制飞行设备在各种干扰条件下稳定飞行，并控制飞行设备的姿态进而修正轨迹保证航迹准确。

2、但是，由于飞行环境的复杂性，控制模型的控制效果通常不好，难以保证飞行设备飞行过程中的安全性和稳定性。

技术实现思路

1、本申请实施例的目的在于提供一种控制模型优化的方法、装置、设备、存储介质及产品，用以提高控制模型的控制性能，以保证飞行设备的安全性以及稳定性。

2、一方面，本申请实施例中提供了一种控制模型优化的方法，包括：

3、获取飞行设备在目标环境下运行的环境交互数据；环境交互数据中包括目标环境在各个时刻的环境状态，以及飞行设备在各个时刻的设备动作，及其分别对应的预期折扣奖励和预期折扣成本；

4、根据环境交互数据中各时刻的环境状态、设备动作以及预期折扣成本，构建控制模型的约束方程；控...

【技术保护点】

1.一种控制模型优化的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述约束方程包括目标成本约束条件以及目标散度约束条件；

3.根据权利要求2所述的方法，其特征在于，所述根据所述环境交互数据，所述成本上限，所述控制模型，以及各时刻的归一化安全状态、优势估计和折扣因子，构建目标成本约束条件，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据各映射值，生成各时刻的第一更新因子，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述环境交互数据，所述控制模型，所述成本上限，所述第二更新因子，以及各时刻...

【技术特征摘要】

1.一种控制模型优化的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述约束方程包括目标成本约束条件以及目标散度约束条件；

4.根据权利要求3所述的方法，其特征在于，所述根据各映射值，生成各时刻的第一更新因子，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述环境交互数据，所述控制模型，所述成本上限，所述第二更新因子，以及各时刻的第一更新因子、和折扣因子，构建所述目标成本约束条件，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用散度函数，基于指定控制模型和所述控制模型，构建所述目标散度约束条件，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述环境交互数据，以及所述约束方程，求解控制模型的目标函数的最优解，包括：

8.根据权利要求7所述的方法，其特...

【专利技术属性】
技术研发人员：张涛，赵家玮，徐皓天，王圣杰，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人