当前位置: 首页 > 专利查询>清华大学专利>正文

控制模型优化的方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:43896942 阅读:24 留言:0更新日期:2025-01-03 13:10
本申请涉及机器学习技术领域,具体提供了一种控制模型优化的方法、装置、设备、存储介质及产品。其中,该方法包括:根据环境交互数据中各时刻的环境状态、设备动作以及预期折扣成本,构建控制模型的约束方程,并根据环境交互数据,求解控制模型的目标函数在约束方程的条件下的最优解,获得目标模型参数,进而获得优化后的目标控制模型,这样,结合了预期折扣奖励和预期折扣成本,对模型进行优化,提高了目标控制模型的控制性能,进而可以保证飞行设备飞行的安全性以及稳定性。

【技术实现步骤摘要】

本申请涉及机器学习,具体涉及一种控制模型优化的方法、装置、设备、存储介质及产品


技术介绍

1、在飞行设备(如,飞行器)的飞行控制场景中,通常通过设置有控制模型的控制系统,控制飞行设备在各种干扰条件下稳定飞行,并控制飞行设备的姿态进而修正轨迹保证航迹准确。

2、但是,由于飞行环境的复杂性,控制模型的控制效果通常不好,难以保证飞行设备飞行过程中的安全性和稳定性。


技术实现思路

1、本申请实施例的目的在于提供一种控制模型优化的方法、装置、设备、存储介质及产品,用以提高控制模型的控制性能,以保证飞行设备的安全性以及稳定性。

2、一方面,本申请实施例中提供了一种控制模型优化的方法,包括:

3、获取飞行设备在目标环境下运行的环境交互数据;环境交互数据中包括目标环境在各个时刻的环境状态,以及飞行设备在各个时刻的设备动作,及其分别对应的预期折扣奖励和预期折扣成本;

4、根据环境交互数据中各时刻的环境状态、设备动作以及预期折扣成本,构建控制模型的约束方程;控制模型用于根据环境状本文档来自技高网...

【技术保护点】

1.一种控制模型优化的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述约束方程包括目标成本约束条件以及目标散度约束条件;

3.根据权利要求2所述的方法,其特征在于,所述根据所述环境交互数据,所述成本上限,所述控制模型,以及各时刻的归一化安全状态、优势估计和折扣因子,构建目标成本约束条件,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各映射值,生成各时刻的第一更新因子,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述环境交互数据,所述控制模型,所述成本上限,所述第二更新因子,以及各时刻...

【技术特征摘要】

1.一种控制模型优化的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述约束方程包括目标成本约束条件以及目标散度约束条件;

3.根据权利要求2所述的方法,其特征在于,所述根据所述环境交互数据,所述成本上限,所述控制模型,以及各时刻的归一化安全状态、优势估计和折扣因子,构建目标成本约束条件,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据各映射值,生成各时刻的第一更新因子,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据所述环境交互数据,所述控制模型,所述成本上限,所述第二更新因子,以及各时刻的第一更新因子、和折扣因子,构建所述目标成本约束条件,包括:

6.根据权利要求5所述的方法,其特征在于,所述采用散度函数,基于指定控制模型和所述控制模型,构建所述目标散度约束条件,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述环境交互数据,以及所述约束方程,求解控制模型的目标函数的最优解,包括:

8.根据权利要求7所述的方法,其特...

【专利技术属性】
技术研发人员:张涛赵家玮徐皓天王圣杰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1