用于库存控制和优化的强化学习系统和方法技术方案

技术编号:29066302 阅读:98 留言:0更新日期:2021-06-30 09:12
一种在系统中对资源管理代理的强化学习的方法,该系统用于管理具有销售范围的易消亡资源的库存,同时寻求优化由此生成的收入。库存具有相关联的状态。该方法包括生成多个动作。响应于这些动作,接收对应的观察,每个观察包括与库存相关联的状态的过渡以及从易消亡资源的销售生成的收入形式的相关联报酬。将接收到的观察存储在重放存储器存储库中。根据优先化的重放采样算法,从重放存储器存储库中周期性地采样随机化的观察批,其中在整个训练时期内,逐步适配用于选择随机化的批中的观察的概率分布。每个随机化的观察批被用于更新神经网络的权重参数,该神经网络包括资源管理代理的动作

【技术实现步骤摘要】
【国外来华专利技术】用于库存控制和优化的强化学习系统和方法


[0001]本专利技术涉及用于改善库存控制和优化的技术方法和系统。特别地,在改进的收益管理系统的实现中,本专利技术的实施例采用机器学习技术,特别是强化学习。

技术介绍

[0002]在许多行业中采用库存系统来控制资源的可用性,例如通过定价和收益管理以及任何相关联的计算。库存系统使客户能够购买或预订提供商提供的可用资源或商品。此外,库存系统允许提供商管理可用资源,并通过将这些资源提供给客户来最大程度地增加收入和利润。
[0003]在此上下文中,术语“收入管理”是指数据分析的应用,以预测消费者行为并优化产品供应和定价以最大化收入增长。收入管理和定价在宾馆、旅游和运输行业尤为重要,所有这些行业的特征都是“易消亡的存货”,即,一旦使用范围过去,空置的空间(诸如房间或座位)就表示无法弥补的收入损失。定价和收入管理是这些行业的运营商可以改善其业务和财务绩效的最有效方式。重要的是,定价是容量管理和负载平衡中的强大工具。因此,最近几十年来,这些行业中已经开发了复杂的自动化收入管理系统。
[0004]举例来说本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于在系统中对资源管理代理进行强化学习的方法,该系统用于管理具有销售范围的易消亡资源的库存,同时寻求优化由此生成的收入,其中库存具有包括易消亡资源的剩余可用性和销售范围的剩余时段的相关联状态,该方法包括:生成多个动作,每个动作包括发布定义相对于库存中剩余的易消亡资源的定价时间表的数据;响应于所述多个动作,接收对应的多个观察,每个观察包括与库存相关联的状态的过渡以及从易消亡资源的销售生成的收入形式的相关联报酬;将接收到的观察存储在重放存储器存储库中;根据优先化的重放采样算法,从重放存储器存储库中周期性地采样随机化的观察批,其中在整个训练时期内,从有利于选择与接近终端状态的过渡对应的观察的分布朝着有利于选择与接近初始状态的过渡对应的观察的分布,逐步适配用于选择随机化的批中的观察的概率分布;以及使用每个随机化的观察批来更新神经网络的权重参数,该神经网络包括资源管理代理的动作

值函数近似器,使得在提供有输入库存状态和输入动作时,神经网络的输出更加紧密近似于在输入库存状态下生成输入动作的实际值,其中神经网络可以被用于选择根据与库存相关联的对应状态而生成的所述多个动作中的每个动作。2.如权利要求1所述的方法,其中神经网络是深度神经网络。3.如权利要求1或2所述的方法,还包括通过以下操作来初始化神经网络:确定与现有收入管理系统相关联的值函数,其中值函数将与库存相关联的状态映射到对应的估计值;将值函数翻译成适于资源管理代理的对应的经翻译的动作

值函数,其中翻译包括将时间步长尺寸匹配到与资源管理代理相关联的时间步长并将动作维度添加到值函数;采样经翻译的动作

值函数以生成用于神经网络的训练数据集;以及使用训练数据集来训练神经网络。4.如权利要求1至3中的任一项所述的方法,还包括配置资源管理代理,以在使用神经网络的动作

值函数近似与基于动作

值函数的表格表示的Q学习方法之间切换,其中切换包括:对于每个状态和动作,使用神经网络计算对应的动作值,并用计算出的值填充动作

值查找表中的条目;以及切换到使用动作

值查找表的Q学习操作模式。5.如权利要求4所述的方法,其中切换还包括:采样动作

值查找表以生成用于神经网络的训练数据集;使用训练数据集来训练神经网络;以及切换到使用经训练的神经网络的神经网络功能近似操作模型。6.如权利要求1至4中的任一项所述的方法,其中生成的动作被传输到市场模拟器,并且从市场模拟器接收观察。7.如权利要求6所述的方法,其中市场模拟器包括模拟的需求生成模块、模拟的预约系统和选择模拟模块。
8.如权利要求7所述的方法,其中市场模拟器还包括一个或多个模拟的竞争库存系统。9.一种系统,用于管理具有销售范围的易消亡资源库存,同时寻求优化由此生成的收入,其中库存具有包括易消亡资源的剩余可用性和销售范围的剩余时段的相关联状态,该系统包括:计算机实现的资源管理代理模块;计算机实现的神经网络模块,包...

【专利技术属性】
技术研发人员:R
申请(专利权)人:艾玛迪斯简易股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1