基于Q-学习算法的空间桁架在轨装配策略制造技术

技术编号:29135049 阅读:32 留言:0更新日期:2021-07-02 22:30
本发明专利技术公开了基于Q‑学习算法的空间桁架在轨装配策略。该策略将Q‑学习算法与细胞机器人在轨装配策略问题相结合,通过采用完全贪婪策略完成装配过程动作行为选择,然后通过不断训练学习使在轨装配机器人学会如何选择并执行有效行为,再根据执行行为与获得奖励对Q进行更新,最后基于终止条件判定装配过程是否完成,从而验证该装配策略的有效性。本发明专利技术经过算法训练阶段与实际装配阶段最终用最少的步数将桁架周期模块结构装配完成,充分证实了这种策略可以更好地完成空间桁架在轨装配任务,同时这种策略对解决同类问题具有较强的通用性。

【技术实现步骤摘要】
基于Q-学习算法的空间桁架在轨装配策略
本专利技术涉及人工智能
,具体涉及基于Q-学习算法的空间桁架在轨装配策略。
技术介绍
由于太空的特殊环境,会使得在轨装配任务对航天员的安全构成极大威胁,因此机器人在轨装配技术显得尤为重要,在轨装配技术也成为了空间机器人技术的一个重要研究方向。目前,强化学习中的一个重要里程碑就是Q-学习算法,Q-学习算法是由一种类似于动态规划算法的一种最具有代表性的强化学习方法,Q-学习算法是目前最易理解和广为使用的强化学习方法,该算法在人工智能体及机器学习领域受到了普遍关注。由于Q-学习方法可以从环境中得到反馈从而进行训练学习,能适应动态变化的选择问题,有利于太空等未知环境的探索,是当前在轨装配技术的重要应用。同时,现有装配策略大多为单一避障或路径选择,其中对无效抓取行为的应对策略较少。因此,如何减少装配过程中的重复繁杂行为,学会避免无效行为,从而用最少的步数完成装配任务是本领域亟需解决的技术问题之一。
技术实现思路
本专利技术目的在于克服上述现有技术的不足,提供了基于Q-学习算本文档来自技高网...

【技术保护点】
1.基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成。/n

【技术特征摘要】
1.基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成。


2.根据权利要求1所述的基于Q-学习算法的空间桁架在轨装配策略,其特征在于,定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息具体包括:
所述算法初始参数包括:行为Action、状态State、策略函数a=π(s)、奖励函数R(s,a);所述在轨装配机器人的行为对在轨桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态:肩部夹持固定、肩部杆间移动、腕部抓取装配;
所述基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择具体包括:
所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择;所述策略算法进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,所述ε值的函数变化可表达为:ε(k)=ε×(1-k/m);
所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s...

【专利技术属性】
技术研发人员:戴野相朝芳齐云杉张启昊曲文印
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1