一种信息处理方法、电子设备和计算机存储介质技术

技术编号:23985704 阅读:28 留言:0更新日期:2020-04-29 13:25
本申请实施例公开了一种信息处理方法,该方法包括:获得与历史订单关联的多个仿真环境;获得多个策略网络;其中,策略网络的个数与仿真环境的个数相同;多个策略网络相同;获取与历史订单关联的目标订单,并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程,得到梯度更新值;基于梯度更新值,对策略网络进行更新,得到更新后的策略网络。本申请的实施例同时还公开了一种电子设备和计算机存储介质。

An information processing method, electronic equipment and computer storage medium

【技术实现步骤摘要】
一种信息处理方法、电子设备和计算机存储介质
本申请涉及但不限于计算机
,尤其涉及一种信息处理方法、电子设备和计算机存储介质。
技术介绍
相关技术中,生产线生产计划排程(简称排产)是指在产能、开工时间有限的生产线上,经过某种优化决策过程得到以提升总产量、改善交货期满足率、平衡各产线占用率等为目标的合理有效的生产计划的过程。现代企业通过优化排产提升生产效率,改善企业效益。然而,相关技术中采用固定的参数构建一个仿真环境,并基于该唯一的仿真环境与策略网络进行交互,进而基于交互结果更新策略网络,如此,导致得到的更新后的策略网络可用性较差。
技术实现思路
本申请实施例期望提供一种信息处理方法、电子设备和计算机存储介质。本申请的技术方案是这样实现的:一种信息处理方法,所述方法包括:获得与历史订单关联的多个仿真环境;获得多个策略网络;其中,所述策略网络的个数与所述仿真环境的个数相同;所述多个策略网络相同;获取与所述历史订单关联的目标订单,并在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值;基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。可选的,所述获得与历史订单关联的多个仿真环境,包括:获得所述历史订单;其中,所述历史订单包括订单数据;基于所述订单数据,生成产能波动函数;基于所述产能波动函数,构建所述多个仿真环境。可选的,所述基于所述产能波动函数,构建所述多个仿真环境,包括:获得生产线参数;基于所述产能波动函数和所述生产线参数,构建所述多个仿真环境。可选的,所述在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值,包括:在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到与不同的所述仿真环境对应的梯度值;对多个所述梯度值进行加权平均,得到所述梯度更新值。可选的,所述基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络,包括:通过梯度下降算法基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。可选的,所述方法还包括:基于所述梯度更新值,更新与所述策略网络关联的价值网络;其中,所述价值网络用于对所述更新后的策略网络进行评估。一种电子设备,所述电子设备包括:处理器、存储器和通信总线;所述通信总线用于实现处理器和存储器之间的通信连接;所述处理器用于执行所述存储器中存储的信息处理程序,以实现如下的步骤:获得与历史订单关联的多个仿真环境;获得多个策略网络;其中,所述策略网络的个数与所述仿真环境的个数相同;所述多个策略网络相同;获取与所述历史订单关联的目标订单,并在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值;基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。可选的,所述处理器还用于执行所述存储器中存储的信息处理程序,以实现如下的步骤:获得所述历史订单;其中,所述历史订单包括订单数据;基于所述订单数据,生成产能波动函数;基于所述产能波动函数,构建所述多个仿真环境。可选的,所述处理器还用于执行所述存储器中存储的信息处理程序,以实现如下的步骤:获得生产线参数;基于所述产能波动函数和所述生产线参数,构建所述多个仿真环境。一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的信息处理的方法的步骤。本申请实施例所提供的信息处理方法、电子设备和计算机存储介质,获得与历史订单关联的多个仿真环境,即获得与真实历史订单关联的多个仿真环境,以确保本方案适应真实场景中环境参数的波动;进而,获得多个策略网络;其中,策略网络的个数与仿真环境的个数相同;多个策略网络相同;获取与历史订单关联的目标订单,并在不同的仿真环境与每一策略网络进行交互的过程中对目标订单进行生产计划排程,得到梯度更新值,即在并行训练的过程中得到多个梯度更新值;基于梯度更新值,对策略网络进行更新,得到更新后的策略网络;如此,解决了相关技术中基于唯一的仿真环境与策略网络进行交互,进而基于交互结果更新策略网络所导致的得到的更新后的策略网络可用性较差的问题,从而在实际生产过程中即使参数发生波动依然可获得稳定解,即在参数发生波动时确保更新后的策略网络的可用性较好,并且确保更新后的策略网络具有更好的鲁棒性。附图说明图1为本申请的实施例提供的一种信息处理方法的流程示意图;图2为本申请的实施例提供的另一种信息处理方法的流程示意图;图3为本申请的实施例提供的又一种信息处理方法的流程示意图;图4为本申请的另一实施例提供的一种多仿真环境的强化学习架构的流程示意图;图5为本申请的实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。相关技术中,排产是指在产能、开工时间有限的生产线上,经过某种优化决策过程得到以提升总产量、改善交货期满足率、平衡各产线占用率等为目标的,合理有效的生产计划的过程。现代企业通过优化排产提升生产效率,改善企业效益。目前制造业中普遍采用的排产方案有人工团队排产、专家系统排产、基于传统启发式算法的排产等。在传统制造业中,人工团队排产依然占据主流。人工排产具有以下不足:1、排产过程费时费力,每班排产计划的产生都需要消耗大量的工时和人力,对于复杂生产场景该问题尤为严重;2、人工排产难以做到针对某项指标进行优化排产,尤其难以兼顾多个优化目标,由此造成了产能和人力的浪费。而专家系统排产则面临优化效果不显著、优化目标单一等问题。基于启发式优化算法的排产框架因其开发简便响应迅速,被一些先行引入自动化和智能化生产管理系统的企业采用进而实现排程。启发式优化排产算法将排产定义为数学优化问题,并利用各种启发式算法求解出优化的排产结果。通常,这类排产架构能够以较少的时间和成本,得到各项指标比人工排产结果更优的生产计划表。然而,当生产规模较大或生产流程较复杂时,启发式算法无法兼顾解的质量和计算时效,而这两者在现实生产中都非常重要。由此,提出了由数据驱动的,基于大数据的深度学习优化算法。一方面,基于深度学习的优化算法虽然可避免上述传统方案的缺点,但受限于较大的数据需求量以及复杂的训练过程,现阶段很难落实到具体工业场景上。另一方面,生产线产能、成本等参数随时间变化较大,基于预训练的机器学习模型泛化性及鲁棒性常常满足不了产线生产的实际需求。由于这些原因,数据驱动机器学习优化算法至今没有在排产中被采用。综上,当面对大规模排产时,无论是基于人工还是基于传统优化算法的排产方案,都无本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,所述方法包括:/n获得与历史订单关联的多个仿真环境;/n获得多个策略网络;其中,所述策略网络的个数与所述仿真环境的个数相同;所述多个策略网络相同;/n获取与所述历史订单关联的目标订单,并在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值;/n基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:
获得与历史订单关联的多个仿真环境;
获得多个策略网络;其中,所述策略网络的个数与所述仿真环境的个数相同;所述多个策略网络相同;
获取与所述历史订单关联的目标订单,并在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值;
基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。


2.根据权利要求1所述的方法,其特征在于,所述获得与历史订单关联的多个仿真环境,包括:
获得所述历史订单;其中,所述历史订单包括订单数据;
基于所述订单数据,生成产能波动函数;
基于所述产能波动函数,构建所述多个仿真环境。


3.根据权利要求2所述的方法,其特征在于,所述基于所述产能波动函数,构建所述多个仿真环境,包括:
获得生产线参数;
基于所述产能波动函数和所述生产线参数,构建所述多个仿真环境。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到梯度更新值,包括:
在不同的所述仿真环境与每一所述策略网络进行交互的过程中对所述目标订单进行生产计划排程,得到与不同的所述仿真环境对应的梯度值;
对多个所述梯度值进行加权平均,得到所述梯度更新值。


5.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络,包括:
通过梯度下降算法基于所述梯度更新值,对所述策略网络进行更新,得到更新后的策略网络。

【专利技术属性】
技术研发人员:梁翼宋天恒孙赞
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1