一种室内物品飞行搬运机器人的稳定性控制方法及装置制造方法及图纸

技术编号：40899711 阅读：4 留言：0更新日期：2024-04-18 11:16

一种室内物品飞行搬运机器人的稳定性控制方法及装置，包括构建飞行搬运机器人在物品搬运场景下的搬运动作模型，根据飞行搬运机器人的控制输入对和搬运动作模型生成控制预测结果；飞行搬运机器人的控制输入对包括控制作用对和控制状态对；基于控制预测结果构建飞行搬运机器人对应的动力学模型；当动力学模型对应的成本函数满足预设成本阈值时，利用无模型优化器对飞行搬运机器人的控制输入对进行稳定性控制；无模型优化器包括基于混合强化学习的改进后的深度增强学习算法。解决室内物品飞行搬运机器人在物品放置和取走的瞬间，由于物品和飞行搬运机器人之间产生的作用力导致飞行搬运机器人飞行过程中不稳定的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种室内物品飞行搬运机器人的稳定性控制方法及装置。

技术介绍

1、近些年来，飞行机器人作为极具灵活性的平台，日益成为人们完成各类不同任务的得力助手，并且受到了越来越多的关注。随着计算机技术、定位技术、避障技术、运动规划技术的提高，以及新型传感器、控制器的产生，新一代飞行机器人应运而生，小巧的机身，灵敏的速度可以使得它们能在有限复杂的室内环境中低空飞行，这使得飞行机器人得以民用，例如，可以使用飞行机器人完成室内物品的搬运工作。飞行机器人可以垂直起落，在室内复杂的环境中完成升降，并且十分敏捷，可实现不同的姿态控制，应用于室内环境下的轨迹跟踪、特技飞行、编队控制等。

2、然而，在物品搬运过程中，室内物品飞行搬运机器人在物品放置和取走的瞬间，物品与飞行机器人之间会产生作用力，这些力会使飞行机器人在飞行过程中变得不稳定，严重时会导致失事坠毁，故对于室内物品飞行搬运机器人动力学系统模型及稳定性控制算法的分析研究是很有必要的。然而，室内物品飞行搬运机器人是高度非线性，不稳定的动力学系统，物品的放置与取走的瞬间加重了其系统的不稳定性，这给稳定性控制器的设计带来了很大负担。

技术实现思路

1、本专利技术主要解决的技术问题是室内物品飞行搬运机器人在物品放置和取走的瞬间，由于物品和飞行搬运机器人之间产生的作用力导致飞行搬运机器人飞行过程中不稳定。

2、根据第一方面，一种实施例中提供一种室内物品飞行搬运机器人的稳定性控制方法，包括：

3、

4、基于所述控制预测结果构建所述飞行搬运机器人对应的动力学模型；

5、构建所述动力学模型对应的成本函数；所述成本函数包括令所述飞行搬运机器人达到稳定状态的函数；

6、当所述成本函数满足预设成本阈值时，利用无模型优化器对所述飞行搬运机器人的控制输入对进行稳定性控制；所述无模型优化器包括基于混合强化学习的改进后的深度增强学习算法。

7、一实施例中，所述无模型优化器包括基于混合强化学习的改进后的深度增强学习算法，包括：

8、利用预设的负载减少方法、预设参数积分方法和预设混合强化损失函数对预设深度增强学习算法进行改进优化；其中，所述负载减少方法包括将所述预设深度增强学习算法中计算的负载减少至预设负载阈值。

9、一实施例中，所述预设参数积分方法包括将预设参数和所述深度增强学习算法进行积分，产生积分后的参数，并将所述预设参数进行更新和存储在预设重放存储器中。

10、一实施例中，所述预设混合强化损失函数，包括：

11、

12、其中，表示所述预设混合强化损失函数，rjλ表示第j步的时间差分回报，q(sj,aj|θ)表示q网络对应的状态对，sj表示运动状态矩阵，aj表示加速度矩阵，θ表示四元数矩阵。

13、一实施例中，所述构建所述动力学模型对应的成本函数，包括：

14、

15、其中，cost[c(st+1)]表示所述动力学模型对应的成本函数，i表示单位矩阵，λ-1表示对角精度矩阵，st+1表示第t+1时刻的所述飞行搬运机器人的状态，st表示第t时刻的所述飞行搬运机器人的状态，t表示矩阵转置，ω-1表示所述飞行搬运机器人在物品放置和取走瞬间期望实现的状态，σ表示标准差。

16、一实施例中，所述飞行搬运机器人对应的动力学模型，包括：

17、

18、其中，表示不同时刻下所述飞行搬运机器人的状态，表示训练样本的输入值，表示控制预测结果对应的测试输入，表示估计方差，表示概率分布函数，表示输入函数，i表示控制状态对的个数，j表示控制作用对的个数，表示训练目标。

19、一实施例中，所述利用无模型优化器对所述飞行搬运机器人的控制输入对进行稳定性控制之前，所述方法还包括：

20、对所述飞行搬运机器人的状态空间进行扩展，得到扩展后的状态空间；所述扩展后的状态空间包括其中，s表示扩展后的状态空间，x和y表示所述飞行搬运机器人的当前位置，ql表示物品放置瞬间的状态，表示物品放置瞬间的状态对应的一阶导数，qr表示物品取走瞬间的状态，表示物品取走瞬间的状态对应的一阶导数，t表示矩阵转置。

21、根据第二方面，一种实施例中提供一种室内物品飞行搬运机器人的稳定性控制装置，包括：

22、搬运运动模型构建模块，用于构建飞行搬运机器人在预设物品搬运场景下的搬运动作模型，根据预构建的飞行搬运机器人的控制输入对和所述搬运动作模型生成控制预测结果；所述搬运动作模型包括物品放置动作所对应的第一模型和物品取走动作所对应的第二模型；所述飞行搬运机器人的控制输入对包括控制作用对和控制状态对；

23、动力学模型构建模块，用于基于所述控制预测结果构建所述飞行搬运机器人对应的动力学模型；

24、成本函数构建模块，用于构建所述动力学模型对应的成本函数；所述成本函数包括令所述飞行搬运机器人达到稳定状态的函数；

25、稳定性控制模块，用于当所述成本函数满足预设成本阈值时，利用无模型优化器对所述飞行搬运机器人的控制输入对进行稳定性控制；所述无模型优化器包括基于混合强化学习的改进后的深度增强学习算法。

26、根据第三方面，一种实施例中提供一种室内物品飞行搬运机器人的稳定性控制设备，包括：

27、存储器，用于存储程序；

28、处理器，用于通过执行所述存储器存储的程序以实现如本文中任一实施例所述的方法。

29、根据第四方面，一种实施例提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如本文中任一实施例所述的方法。

30、依据上述实施例的室内物品飞行搬运机器人的稳定性控制方法、装置、设备及计算机可读存储介质，由于根据飞行搬运机器人的控制输入对和搬运动作模型生成控制预测结果，并利用控制预测结果构建飞行搬运机器人对应的动力学模型，减少构建动力学模型时的训练数据，而只需要在生成控制预测结果时获取控制输入对作为训练数据，可以简化估计时间，减少训练数据量。构建动力学模型对应的成本函数，通过控制成本函数来控制飞行搬运机器人达到稳态的收敛时间和动作空间，当成本函数满足成本阈值时，通过基于混合强化学习改进后的无模型优化器对飞行搬运机器人的控制输入对进行稳定性控制，由于基于混合强化学习改进了无模型优化器，无模型优化器只需要评估每个状态对的少量可能存在的操作，同时混合强化学习结构也避免了分布失配的问题，因此解决了由于物品和飞行搬运机器人之间产生的作用力导致飞行搬运机器人飞行过程中不稳定的技术问题。

本文档来自技高网...

【技术保护点】

1.一种室内物品飞行搬运机器人的稳定性控制方法,其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述无模型优化器包括基于混合强化学习的改进后的深度增强学习算法，包括：

3.如权利要求2所述的方法，其特征在于，所述预设参数积分方法包括将预设参数和所述深度增强学习算法进行积分，产生积分后的参数，并将所述预设参数进行更新和存储在预设重放存储器中。

4.如权利要求2所述的方法，其特征在于，所述预设混合强化损失函数，包括：

5.如权利要求1所述的方法，其特征在于，所述构建所述动力学模型对应的成本函数，包括：

6.如权利要求1所述的方法，其特征在于，所述飞行搬运机器人对应的动力学模型，包括：

7.如权利要求1所述的方法，其特征在于，所述利用无模型优化器对所述飞行搬运机器人的控制输入对进行稳定性控制之前，所述方法还包括：

8.一种室内物品飞行搬运机器人的稳定性控制装置，其特征在于，包括：

9.一种室内物品飞行搬运机器人的稳定性控制设备，其特征在于，包括：

10.一种计算机可读

...

【技术特征摘要】

1.一种室内物品飞行搬运机器人的稳定性控制方法,其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述无模型优化器包括基于混合强化学习的改进后的深度增强学习算法，包括：

4.如权利要求2所述的方法，其特征在于，所述预设混合强化损失函数，包括：

5.如权利要求1所述的方法，其特征在于，所述构建所述动力学模型对应的成本函...

【专利技术属性】
技术研发人员：林必毅，贺振中，吴福胜，
申请(专利权)人：深圳市华赛睿飞智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人