基于强化学习的舱位控制和超售方法、装置及电子设备制造方法及图纸

技术编号：37187446 阅读：6 留言：0更新日期：2023-04-20 22:50

本申请是关于一种基于强化学习的舱位控制和超售方法、装置及电子设备。该方法包括：获取航空市场动力学仿真模型，航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息；根据航空市场动力学仿真模型和价值函数，确定时空动态图，时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，初始节点是指航线中的出发地，目标节点是指航线中的目的地；调用舱位控制策略模型，基于时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作。该方法实现了灵活高效、时空动态自适应的航班舱位控制和超售。时空动态自适应的航班舱位控制和超售。时空动态自适应的航班舱位控制和超售。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的舱位控制和超售方法、装置及电子设备

[0001]本申请涉及计算机
，尤其涉及一种基于强化学习的舱位控制和超售方法、装置和电子设备。

技术介绍

[0002]舱位控制和超售对于民用航空运输来说具有十分重要的地位，通过拒接购票请求或者接受购票请求，来达到舱位控制或者超售的目的。对于日常大规模舱位控制和超售，合理高效的舱位控制和超售策略能大量节省包括空座损失和拒载损失等成本。而对于包括自然灾害在内的紧急情况，反应快速灵活的舱位控制和超售在进行迅速止损方面都十分关键。

技术实现思路

[0003]为克服相关技术中存在的问题，本申请提供一种基于强化学习的舱位控制和超售方法、装置及电子设备。
[0004]根据本申请实施例的第一方面，提供一种基于强化学习的舱位控制和超售方法，应用于电子设备，所述方法包括：获取航空市场动力学仿真模型，所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息；根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，所述初始节点是指航线中的出发地，所述目标节点是指航线中的目的地；调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，所述目标动作包括接受购票请求和拒绝购票请求中的任一种，所述舱位控制策略模型用于预测针对购票请求执行的动作。
[0005...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的舱位控制和超售方法，其特征在于，应用于电子设备，所述方法包括：获取航空市场动力学仿真模型，所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息；根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值，每个连接线由初始节点指向目标节点，所述初始节点是指航线中的出发地，所述目标节点是指航线中的目的地；调用舱位控制策略模型，基于所述时空动态图和目标航线对应的当前销售进度信息，确定对购票请求执行的目标动作，所述目标动作包括接受购票请求和拒绝购票请求中的任一种，所述舱位控制策略模型用于预测针对购票请求执行的动作。2.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息，所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作，所述第一动作包括接受购票请求和拒绝购票请求中的任一种，所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息，所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。3.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数，所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。4.根据权利要求1所述的基于强化学习的舱位控制和超售方法，其特征在于，所述根据所述航空市场动力学仿真模型和价值函数，确定时空动态图，包括：获取初始航线图，所述初始航线图包括多个节点以及多个连接线；基于时序差分算法，以收益度量作为奖励函数，以风险度量作为惩罚项，确定每个所述节点对应的状态价值函数和动作价值函数；其中，所述状态价值函数用于描述每个所述节点的节点状态的价值，所述节点状态指示对应节点是否有对应的飞行器，所述动作价值函数用于描述对应节点执行第二动作的价值，所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线，所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息；基于所述动作价值函数和所述状态价值函数之间的差值，确定所述初始航线图中的每个所述连接线对应的权值，将添加有权值的初始航线图作为所述时空动态图。5.根据权利要求4所述的基于强化学习的舱位控制和超售方法，其特征在于，所述基于所述状态价值函数和所述动作价值函数之间的差值，确定所述初始航线图中的每个所述连接线对应的权值，包括：采用下述公式确定每个所述连接线对应的权值：其中，W(i,j)表示所述初始航线图中从节点i指向节点j的连接线对应的权值，s
i
表示节点i的节点状态，a
ij
表示选择从节点i到节点i的航线的动
作，Q(s
i
,a
ij
)表示在(s
i
,a
ij
)时的动作价值函数，V(s
i
)...

【专利技术属性】
技术研发人员：张筱，吴发国，陈天元，姚望，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人