用于使用强化学习在制造环境中控制托盘的系统和方法技术方案

技术编号:37981035 阅读:5 留言:0更新日期:2023-06-30 09:56
本公开提供“用于使用强化学习在制造环境中控制托盘的系统和方法”。一种方法包括:从设置在环境的多个路线选择控制位置处的多个传感器获得传感器数据,其中所述传感器数据指示所述多个路线选择控制位置处的多个托盘的数量。所述方法包括:基于所述传感器数据计算多个差值;基于所述传感器数据和瞬态目标函数计算瞬态生产值;并且基于所述传感器数据和稳态目标函数计算稳态生产值。所述方法包括:基于所述多个差值、所述瞬态生产值和所述稳态生产值来生成状态向量;并且基于所述状态向量和环境的数字孪生来定义所述多个托盘中的一组托盘的一组路线。盘的一组路线。盘的一组路线。

【技术实现步骤摘要】
用于使用强化学习在制造环境中控制托盘的系统和方法


[0001]本公开涉及用于使用强化学习在制造环境中控制托盘的系统和方法。

技术介绍

[0002]本部分中的陈述仅提供了与本公开相关的背景信息,并且可能不构成现有技术。
[0003]在制造环境中,可以在各种托盘上提供半成品工件和成品工件,所述托盘在执行制造操作的多个工作站之间自主导航。作为示例,当接近或离开工作站时,控制器可以执行神经网络例程(例如,监督学习技术,诸如基于图像的分类例程)以指示托盘在所述环境中的各种预定义位置处自主地合并或拆分路径。然而,常规的神经网络例程不能有效地抑制制造例程的瓶颈以满足制造例程的各种时间和生产约束。本公开解决了被配置为在制造环境中控制托盘的常规神经网络例程的这些问题以及其他问题。

技术实现思路

[0004]本部分提供了对本公开的总体概述并且不是对其全部范围或其所有特征的全面公开。
[0005]本公开提供了一种方法,所述方法包括:从设置在环境的多个路线选择控制位置处的多个传感器获得传感器数据,其中所述传感器数据指示所述多个路线选择控制位置处的多个托盘的数量。所述方法包括:基于所述传感器数据计算多个差值;基于所述传感器数据和瞬态目标函数计算瞬态生产值;并且基于所述传感器数据和稳态目标函数计算稳态生产值。所述方法包括:基于所述多个差值、所述瞬态生产值和所述稳态生产值来生成状态向量;并且基于所述状态向量和环境的数字孪生来定义所述多个托盘中的一组托盘的一组路线。
[0006]在一种形式中,所述多个差值对应于在所述多个路线选择控制位置中的第一路线选择控制位置处的所述多个托盘的第一数量与在所述多个路线选择控制位置中的第二路线选择控制位置处的所述多个托盘的第二数量之间的差值。在一种形式中,所述方法包括:确定所述多个路线选择控制位置中的每个路线选择控制位置处的动作,其中所述动作包括托盘合并操作和托盘拆分操作中的一者,并且其中所述一组路线进一步基于所述动作。在一种形式中,所述环境的数字孪生包括与所述多个托盘相关联的多条经训练路线,并且所述方法还包括:基于所述状态向量从所述多条经训练路线中识别一组经训练路线并且基于所述一组经训练路线定义所述一组路线。在一种形式中,所述环境的数字孪生包括与所述多个托盘相关联的多条经训练路线,并且所述方法还包括:确定所述一组路线是否对应于所述多条经训练路线中的一组经训练路线,并且响应于所述一组路线不对应于所述一组经训练路线,执行校正动作。
[0007]在一种形式中,执行所述校正动作包括广播指示与所述一组路线相关联的制造例程不满足时间标准的通知。在一种形式中,所述校正动作包括执行被配置为选择性地调整所述数字孪生的一个或多个强化参数的强化训练例程。在一种形式中,选择性地调整所述
一个或多个强化参数包括调整对应于所述多个传感器的多个虚拟传感器的传感器布局、调整所述瞬态目标函数、调整所述稳态目标函数或其组合。在一种形式中,所述瞬态目标函数和所述稳态目标函数是基于与所述多个托盘中的第一类型的托盘相关联的第一目标生产值和与所述多个托盘中的第二类型的托盘相关联的第二目标生产值。在一种形式中,所述瞬态目标函数是基于位于第一路线选择控制位置与结果路线选择控制位置之间的所述第一类型的托盘的第一数量和所述第二类型的托盘的第二数量。在一种形式中,所述稳态目标函数是基于位于通过结果路线选择控制位置和目的地的所述第一类型的托盘的第一数量和所述第二类型的托盘的第二数量。
[0008]本公开提供了一种系统,所述系统包括处理器和非暂时性计算机可读介质,所述非暂时性计算机可读介质包括可由所述处理器执行的指令。所述指令包括:从设置在环境的多个路线选择控制位置处的多个传感器获得传感器数据,其中所述传感器数据指示所述多个路线选择控制位置处的多个托盘的数量;基于所述传感器数据计算多个差值;基于所述传感器数据和瞬态目标函数计算瞬态生产值;并且基于所述传感器数据和稳态目标函数计算稳态生产值。所述指令包括:基于所述多个差值、所述瞬态生产值和所述稳态生产值来生成状态向量;基于所述状态向量来确定所述多个路线选择控制位置中的每个路线选择控制位置处的动作,其中所述动作包括托盘合并操作和托盘拆分操作中的一者;并且基于每个路线选择控制位置处的所述动作和所述环境的数字孪生来定义所述多个托盘中的一组托盘的一组路线,其中所述环境的数字孪生包括与所述多个托盘相关联的多条经训练路线。所述指令包括:确定所述一组路线是否对应于所述多条经训练路线中的一组经训练路线,并且响应于所述一组路线不对应于所述一组经训练路线,执行校正动作。
[0009]在一种形式中,所述多个差值对应于在所述多个路线选择控制位置中的第一路线选择控制位置处的所述多个托盘的第一数量与在所述多个路线选择控制位置中的第二路线选择控制位置处的所述多个托盘的第二数量之间的差值。在一种形式中,执行所述校正动作包括广播指示与所述一组路线相关联的制造例程不满足时间标准的通知。在一种形式中,所述校正动作包括执行被配置为选择性地调整所述数字孪生的一个或多个强化参数的强化训练例程。在一种形式中,选择性地调整所述一个或多个强化参数包括调整对应于所述多个传感器的多个虚拟传感器的传感器布局、调整所述瞬态目标函数、调整所述稳态目标函数或其组合。
[0010]本公开提供了一种方法,其包括:从设置在环境的多个路线选择控制位置处的多个传感器获得传感器数据,其中所述传感器数据指示所述多个路线选择控制位置处的多个托盘的数量;基于所述传感器数据计算多个差值;基于所述传感器数据和瞬态目标函数计算瞬态生产值;并且基于所述传感器数据和稳态目标函数计算稳态生产值。所述方法包括:基于所述多个差值、所述瞬态生产值和所述稳态生产值来生成状态向量;基于所述状态向量来确定所述多个路线选择控制位置中的每个路线选择控制位置处的动作,其中所述动作包括托盘合并操作和托盘拆分操作中的一者;并且基于每个路线选择控制位置处的所述动作和所述环境的数字孪生来定义所述多个托盘中的一组托盘的一组路线,其中所述环境的数字孪生包括与所述多个托盘相关联的多条经训练路线。所述方法包括:确定所述一组路线是否对应于所述多条经训练路线中的一组经训练路线,并且响应于所述一组路线不对应于所述一组经训练路线,执行校正动作。
[0011]根据本文中提供的描述,另外的适用领域将变得显而易见。应理解,描述和具体示例仅意图用于说明目的,而不意在限制本公开的范围。
附图说明
[0012]为了可以很好地理解本公开,现在将参考附图通过举例的方式描述本公开的各种形式,在附图中:
[0013]图1是根据本公开的教导的包括强化学习训练模块和制造环境的系统的框图;
[0014]图2是根据本公开的教导的制造环境的数字孪生的框图;
[0015]图3是根据本公开的教导的制造环境的传感器布局的数字孪生的框图;
[0016]图4是根据本公开的教导的强化学习系统的框图;并且
[0017]图5示出了根据本公开的教导的用于使用强化学习系统来控制多个托盘的例程。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,其包括:从设置在环境的多个路线选择控制位置处的多个传感器获得传感器数据,其中所述传感器数据指示所述多个路线选择控制位置处的多个托盘的数量;基于所述传感器数据计算多个差值;基于所述传感器数据和瞬态目标函数计算瞬态生产值;基于所述传感器数据和稳态目标函数计算稳态生产值;基于所述多个差值、所述瞬态生产值和所述稳态生产值来生成状态向量;并且基于所述状态向量和所述环境的数字孪生来定义所述多个托盘中的一组托盘的一组路线。2.如权利要求1所述的方法,其中所述多个差值对应于在所述多个路线选择控制位置中的第一路线选择控制位置处的所述多个托盘的第一数量与在所述多个路线选择控制位置中的第二路线选择控制位置处的所述多个托盘的第二数量之间的差值。3.如权利要求1所述的方法,其还包括:确定所述多个路线选择控制位置中的每个路线选择控制位置处的动作,其中所述动作包括托盘合并操作和托盘拆分操作中的一者,并且其中所述一组路线进一步基于所述动作。4.如权利要求1所述的方法,其中所述环境的所述数字孪生包括与所述多个托盘相关联的多条经训练路线,并且其中所述方法还包括:基于所述状态向量从所述多条经训练路线中识别一组经训练路线;并且基于所述一组经训练路线来定义所述一组路线。5.如权利要求1至4中任一项所述的方法,其中所述环境的所述数字孪生包括与所述多个托盘相关联的多条经训练路线,并且其中所述方法还包括:确定所述一组路线是否对应于所述多条经训练路线中的一组经训练路线;并且响应于所述一组路线不对应于所述一组经训练路线而执行校正动作。6.如权利要求5所述的方法,其中执行所述校正动作包括广播指示与所述一组路线相关联的制造例程不满足时间标准的通知。7.如权利要求5所述的方法,其中所述校正动作包括执行被配置为选择性地调整所述数字孪生的一个或多个强化参数的强化训练例程。8.如权利要求7所述的方法,其中选择性地调整所述一个或多个强化参数包括调整对应于所述多个传感器的多个虚拟传感器的传感器布局、调整所述瞬态目标函数、调整所述稳态目标函数或其组合。9.如权利要求1至4中任一项所述的方法,其中所述瞬态目标函数和所述稳态目标函数是基于与所述多个托...

【专利技术属性】
技术研发人员:H
申请(专利权)人:福特全球技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1