【技术实现步骤摘要】
本专利技术属于装配序列规划,具体涉及一种结合了q-learning算法以及sarsa算法的强化学习方法。
技术介绍
1、装配序列规划(以下简称asp)问题在现代制造业中扮演着重要角色,它影响到如何有效地将未装配零件组装成最终产品的过程。这个问题不仅关乎生产效率的提升,还直接影响到产品质量、生产成本以及交付时间。解决asp问题需要综合考虑诸多因素,如装配顺序的优化、各零件之间的装配约束、多目标优化。通过精确的规划和先进的优化方法,制造企业能够在面对复杂产品制造的挑战时,实现生产效率的最大化,并确保产品符合高质量标准且能够按时交付。
2、强化学习属于机器学习的一个范畴,最初受到生物系统学习方式的启发。强化学习是机器通过与环境交互实现目标的一种计算方法,强化学习用agent这个概念来表示做决策的机器。在强化学习中,agent通过观察环境状态、选择行动和接收反馈(奖励或惩罚)来不断优化自身的策略,最终的目标是在多轮的交互过程中获得最大的累计奖励期望值。强化学习非常适合用于解决序贯决策问题,在此基础上我们提出了一种结合了q-learn
...【技术保护点】
1.一种应用于装配序列规划的强化学习混合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S1将装配信息使用布尔矩阵表达具体包括以下步骤:
3.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S2中,关于状态空间动作空间以及奖励函数的定义为:
4.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤S3中,在某个状态的动作的Q-value更新前,预先使用Q-learning算法的更新公式以及Sarsa
...【技术特征摘要】
1.一种应用于装配序列规划的强化学习混合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s1将装配信息使用布尔矩阵表达具体包括以下步骤:
3.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s2中,关于状态空间动作空间以及奖励函数的定义为:
4.根据权利要求1所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述步骤s3中,在某个状态的动作的q-value更新前,预先使用q-learning算法的更新公式以及sarsa算法的更新公式都进行一次计算,然后让两者得出的q-value值进行比较,并采用其中值较大的一个应用于这一次的更新。
5.根据权利要求4所述的一种应用于装配序列规划的强化学习混合方法,其特征在于,所述q-learning算法具体为;
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。