一种应用于装配序列规划的强化学习混合方法技术

技术编号:44410122 阅读:22 留言:0更新日期:2025-02-25 10:23
本发明专利技术请求保护一种应用于装配序列规划的强化学习混合方法,装配序列规划本质上可以理解为一种对产品零件的一种排序,优秀的装配序列可以缩短产品的生产周期,实现生产成本的降低。在本发明专利技术中,提出了一种结合了Q‑learning算法以及Sarsa算法的强化学习算法—Greedy‑QS算法用来解决装配序列规划问题。在本发明专利技术的工作中首先合理的将待装配产品抽象成几个布尔矩阵表达的数学模型,降低了装配模型的复杂度,提升了算法对于装配序列规划问题的可操作性,再使用Greedy‑QS算法求出最优解。通过实验证明了Greedy‑QS算法在装配序列规划问题中比起Q‑learning算法、Sarsa算法以及Q‑SARSA算法具有更快的收敛速度,得出的最优装配序列的奖励值更高兼具Q‑learning算法和Sarsa算法的优点。

【技术实现步骤摘要】

本专利技术属于装配序列规划,具体涉及一种结合了q-learning算法以及sarsa算法的强化学习方法。


技术介绍

1、装配序列规划(以下简称asp)问题在现代制造业中扮演着重要角色,它影响到如何有效地将未装配零件组装成最终产品的过程。这个问题不仅关乎生产效率的提升,还直接影响到产品质量、生产成本以及交付时间。解决asp问题需要综合考虑诸多因素,如装配顺序的优化、各零件之间的装配约束、多目标优化。通过精确的规划和先进的优化方法,制造企业能够在面对复杂产品制造的挑战时,实现生产效率的最大化,并确保产品符合高质量标准且能够按时交付。

2、强化学习属于机器学习的一个范畴,最初受到生物系统学习方式的启发。强化学习是机器通过与环境交互实现目标的一种计算方法,强化学习用agent这个概念来表示做决策的机器。在强化学习中,agent通过观察环境状态、选择行动和接收反馈(奖励或惩罚)来不断优化自身的策略,最终的目标是在多轮的交互过程中获得最大的累计奖励期望值。强化学习非常适合用于解决序贯决策问题,在此基础上我们提出了一种结合了q-learning算法以及sar本文档来自技高网...

【技术保护点】

1.一种应用于装配序列规划的强化学习混合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S1将装配信息使用布尔矩阵表达具体包括以下步骤:

3.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S2中,关于状态空间动作空间以及奖励函数的定义为:

4.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S3中,在某个状态的动作的Q-value更新前,预先使用Q-learning算法的更新公式以及Sarsa算法的更新公式都进行...

【技术特征摘要】

1.一种应用于装配序列规划的强化学习混合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s1将装配信息使用布尔矩阵表达具体包括以下步骤:

3.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s2中,关于状态空间动作空间以及奖励函数的定义为:

4.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s3中,在某个状态的动作的q-value更新前,预先使用q-learning算法的更新公式以及sarsa算法的更新公式都进行一次计算,然后让两者得出的q-value值进行比较,并采用其中值较大的一个应用于这一次的更新。

5.根据权利要求4所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述q-learning算法具体为;

...

【专利技术属性】
技术研发人员:罗志勇洪朋振董鑫
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1