一种基于强化学习的废旧手机目标拆解序列优化方法技术

技术编号:34916106 阅读:93 留言:0更新日期:2022-09-15 07:06
本发明专利技术公开了一种基于强化学习的废旧手机目标拆解序列优化方法,首先分析待拆解手机零件之间的约束关系,建立四元组混合图,在此基础上搭建手机目标拆解的环境,确定当前的手机拆解状态以及后续可行的拆解动作,然后将废旧手机目标拆解序列问题用马尔科夫决策过程形式化,在此基础上对奖惩函数赋值并建立状态

【技术实现步骤摘要】
一种基于强化学习的废旧手机目标拆解序列优化方法


[0001]本专利技术涉及废旧电子产品拆解工艺领域,具体涉及一种基于强化学习的废旧手机目标拆解序列优化方法。

技术介绍

[0002]随着科学技术的发展和人们生活水平提高,智能手机更新换代速度逐渐加快,产生了大量急需妥善处理的废旧手机。目前手机拆解工厂的工作人员通常根据以往的经验来确定手机拆解序列,且不同手机内部零件约束关系不同导致拆解序列混乱,使拆解效率低下。
[0003]现有的废旧电子产品拆解工艺领域,专利公布号为CN113477679A的专利是在进行人工拆解或机械设备拆解之前对大批量废旧手机拆解工艺进行规划并生成可行的拆解序列和工艺,但并没有对序列进行优化,不能得到最优或次优的拆解序列;专利公布号为CN113177313A的专利是通过规划手机拆解流水线、制定手机相似度判定方式、完善整体手机拆解流水线的方法,从而达到实现各型号智能手机自动识别、分类,实现不同类型手机同时拆解的目的,但并不涉及具体单个手机的拆解序列;专利公布号为CN113283616A的专利构建了零件回收综合评价体系和评估本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于包含以下步骤:步骤1、分析待拆解手机零件之间的约束关系,建立四元组混合图;步骤2、利用步骤1建立的四元组混合图搭建手机目标拆解的环境,确定当前的手机拆解状态以及后续可行的拆解动作;步骤3、将废旧手机目标拆解序列问题用马尔科夫决策过程形式化,具体包括:拆解状态空间、拆解动作空间、奖惩函数和拆解目标函数;步骤4、设定待拆解手机的目标零件,并根据步骤3形式化后的拆解状态空间、拆解动作空间对奖惩函数赋值,建立状态

动作

奖励值矩阵;步骤5、利用步骤4建立的状态

动作

奖励值矩阵对Q

learning算法中的Q函数进行训练;步骤6、利用步骤5训练后的Q函数和步骤3形式化后的拆解目标函数进行搜寻,得到拆解至目标零件的最优拆解序列。2.根据权利要求1所述的一种基于强化学习的废旧手机目标拆解序列优化方法,其特征在于,步骤2所述的基于四元组混合图搭建手机拆解的强化学习环境,具体如下:将手机拆解四元组混合图转化为手机拆解的强化学习环境,将待拆解手机的目标零件问题设定为闯关游戏问题(强化学习环境),利用建立的四元组混合图中的约束关系表达强化学习环境的约束关系,即将手机拆解混合图中待拆解手机内部零件的约束关系转化为游戏关卡之间的约束,当零件A对零件B为强物理约束关系时,需要先通过关卡A后才能开启关卡B;当零件A对零件B不相互连接但存在优先关系时,需要先通过关卡A后才能开启关卡B;当零件A对零件B为连接关系时,则关卡A与关卡B之间不存在先后关...

【专利技术属性】
技术研发人员:李林陈泽鹏刘洪果李华清尹凤福
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1