【技术实现步骤摘要】
本申请涉及机器学习,具体涉及一种控制模型优化的方法、装置、设备、存储介质及产品。
技术介绍
1、在飞行设备(如,飞行器)的飞行控制场景中,通常通过设置有控制模型的控制系统,控制飞行设备在各种干扰条件下稳定飞行,并控制飞行设备的姿态进而修正轨迹保证航迹准确。
2、但是,由于飞行环境的复杂性,控制模型的控制效果通常不好,难以保证飞行设备飞行过程中的安全性和稳定性。
技术实现思路
1、本申请实施例的目的在于提供一种控制模型优化的方法、装置、设备、存储介质及产品,用以提高控制模型的控制性能,以保证飞行设备的安全性以及稳定性。
2、一方面,本申请实施例中提供了一种控制模型优化的方法,包括:
3、获取飞行设备在目标环境下运行的环境交互数据;环境交互数据中包括目标环境在各个时刻的环境状态,以及飞行设备在各个时刻的设备动作,及其分别对应的预期折扣奖励和预期折扣成本;
4、根据环境交互数据中各时刻的环境状态、设备动作以及预期折扣成本,构建控制模型的约束方程;控
...【技术保护点】
1.一种控制模型优化的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述约束方程包括目标成本约束条件以及目标散度约束条件;
3.根据权利要求2所述的方法,其特征在于,所述根据所述环境交互数据,所述成本上限,所述控制模型,以及各时刻的归一化安全状态、优势估计和折扣因子,构建目标成本约束条件,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据各映射值,生成各时刻的第一更新因子,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述环境交互数据,所述控制模型,所述成本上限,所述第二
...【技术特征摘要】
1.一种控制模型优化的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述约束方程包括目标成本约束条件以及目标散度约束条件;
3.根据权利要求2所述的方法,其特征在于,所述根据所述环境交互数据,所述成本上限,所述控制模型,以及各时刻的归一化安全状态、优势估计和折扣因子,构建目标成本约束条件,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据各映射值,生成各时刻的第一更新因子,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述环境交互数据,所述控制模型,所述成本上限,所述第二更新因子,以及各时刻的第一更新因子、和折扣因子,构建所述目标成本约束条件,包括:
6.根据权利要求5所述的方法,其特征在于,所述采用散度函数,基于指定控制模型和所述控制模型,构建所述目标散度约束条件,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述环境交互数据,以及所述约束方程,求解控制模型的目标函数的最优解,包括:
8.根据权利要求7所述的方法,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。