基于强化学习的舱位控制和超售方法、装置及电子设备制造方法及图纸

技术编号:37187446 阅读:6 留言:0更新日期:2023-04-20 22:50
本申请是关于一种基于强化学习的舱位控制和超售方法、装置及电子设备。该方法包括:获取航空市场动力学仿真模型,航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测任一航线对应的第二状态信息和预测收益信息;根据航空市场动力学仿真模型和价值函数,确定时空动态图,时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,初始节点是指航线中的出发地,目标节点是指航线中的目的地;调用舱位控制策略模型,基于时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作。该方法实现了灵活高效、时空动态自适应的航班舱位控制和超售。时空动态自适应的航班舱位控制和超售。时空动态自适应的航班舱位控制和超售。

【技术实现步骤摘要】
基于强化学习的舱位控制和超售方法、装置及电子设备


[0001]本申请涉及计算机
,尤其涉及一种基于强化学习的舱位控制和超售方法、装置和电子设备。

技术介绍

[0002]舱位控制和超售对于民用航空运输来说具有十分重要的地位,通过拒接购票请求或者接受购票请求,来达到舱位控制或者超售的目的。对于日常大规模舱位控制和超售,合理高效的舱位控制和超售策略能大量节省包括空座损失和拒载损失等成本。而对于包括自然灾害在内的紧急情况,反应快速灵活的舱位控制和超售在进行迅速止损方面都十分关键。

技术实现思路

[0003]为克服相关技术中存在的问题,本申请提供一种基于强化学习的舱位控制和超售方法、装置及电子设备。
[0004]根据本申请实施例的第一方面,提供一种基于强化学习的舱位控制和超售方法,应用于电子设备,所述方法包括:获取航空市场动力学仿真模型,所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息;根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,所述初始节点是指航线中的出发地,所述目标节点是指航线中的目的地;调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,所述目标动作包括接受购票请求和拒绝购票请求中的任一种,所述舱位控制策略模型用于预测针对购票请求执行的动作。
[0005]在一些实施例中,所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息,所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作,所述第一动作包括接受购票请求和拒绝购票请求中的任一种,所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息,所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。
[0006]在一些实施例中,所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数,所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。
[0007]在一些实施例中,所述根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,包括:获取初始航线图,所述初始航线图包括多个节点以及多个连接线;基于时序差分算法,以收益度量作为奖励函数,以风险信息作为惩罚项,确定每个
所述节点对应的状态价值函数和动作价值函数,所述状态价值函数用于描述每个所述节点的节点状态的价值,所述节点状态指示对应节点是否有对应的飞行器,所述动作价值函数用于描述对应节点执行第二动作的价值,所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线,所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息;基于所述动作价值函数和所述状态价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,将添加有权值的初始航线图作为所述时空动态图。
[0008]在一些实施例中,所述基于所述状态价值函数和所述动作价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,包括:采用下述公式确定每个所述连接线对应的权值:
[0009]其中,W(i,j)表示所述初始航线图中从节点i指向节点j的连接线对应的权值,s
i
表示节点i的节点状态,a
ij
表示选择从节点i到节点i的航线的动作,Q(s
i
,a
ij
)表示在(s
i
,a
ij
)时的动作价值函数,V(s
i
)表示在(s
i
,a
ij
)时的状态价值函数,γ表示预设参数,R表示所述奖励函数。
[0010]在一些实施例中,所述获取航空市场动力学仿真模型,包括:获取待训练的航空市场动力学仿真模型和第一训练数据集,所述第一训练数据集中包括多组训练数据,每组训练数据包括第一样本状态信息、样本动作信息、第二样本状态信息和样本收益信息;基于所述第一训练数据集,训练所述待训练的航空市场动力学仿真模型,得到训练后的航空市场动力学仿真模型。
[0011]在一些实施例中,所述调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作之前,所述方法还包括:获取待训练的舱位控制策略模型和第二训练数据集,所述第二训练数据集中包括样本时空动态图、样本销售进度、样本风险信息和样本价值函数;基于Actor

Critic算法和所述第二训练数据集,训练所述待训练的舱位控制策略模型,得到训练后的舱位控制策略模型。
[0012]在一些实施例中,所述待训练的舱位控制策略模型包括策略网络和价值网络,所述基于Actor

Critic算法和所述第二训练数据集,训练所述待训练的舱位控制策略模型,包括:基于梯度算法,采用下述公式调整所述策略网络中的参数:
[0013]其中,θ1和表示所述策略网络中的参数,为对θ1调整后的参数,a
i
表示选择样本时空动态图中的节点i,s
i
表示样本时空动态图中节点i的节点状态,R表示奖励函数,V(s
i
;θ
v
)表示样本价值函数,θ
v
表示样本价值函数中的参数,Risk
total
表示样本风险信息;基于均方误差算法,采用下述公式调整所述价值网络中的参数:
[0014]其中,θ2和表示所述价值网络中的参数,为对θ2调整后的参数。
[0015]根据本申请实施例的第二方面,提供一种基于强化学习的舱位控制和超售装置,所述装置包括:模型获取模块,被配置为获取航空市场动力学仿真模型,所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息;动态图获取模块,被配置为根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,所述初始节点是指航线中的出发地,所述目标节点是指航线中的目的地;动作确定模块,被配置为调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,所述目标动作包括接受购票请求和拒绝购票请求中的任一种,所述舱位控制策略模型用于预测针对购票请求执行的动作。
[0016]在一些实施例中,所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息,所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作,所述第一动作包括接受购票请求和拒绝购票请求中的任一种,所述第二状态信息是指在针对所述购票请求执行动作后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的舱位控制和超售方法,其特征在于,应用于电子设备,所述方法包括:获取航空市场动力学仿真模型,所述航空市场动力学仿真模型用于基于任一航线对应的第一状态信息和动作信息预测所述任一航线对应的第二状态信息和预测收益信息;根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,所述时空动态图包括多个节点、多个连接线以及每个连接线对应的权值,每个连接线由初始节点指向目标节点,所述初始节点是指航线中的出发地,所述目标节点是指航线中的目的地;调用舱位控制策略模型,基于所述时空动态图和目标航线对应的当前销售进度信息,确定对购票请求执行的目标动作,所述目标动作包括接受购票请求和拒绝购票请求中的任一种,所述舱位控制策略模型用于预测针对购票请求执行的动作。2.根据权利要求1所述的基于强化学习的舱位控制和超售方法,其特征在于,所述第一状态信息是指当前时刻的销售进度信息以及距离航线起飞的时间信息,所述动作信息是指在所述第一状态信息的基础上针对购票请求执行的第一动作,所述第一动作包括接受购票请求和拒绝购票请求中的任一种,所述第二状态信息是指在针对所述购票请求执行动作后的销售进度信息以及距离航线起飞的时间信息,所述预测收益信息是指针对所述购票请求执行动作后所带来的收益。3.根据权利要求1所述的基于强化学习的舱位控制和超售方法,其特征在于,所述航空市场动力学仿真模型包括训练得到的模型参数以及预设超参数,所述预设超参数包括客户到来频率参数、购票概率参数、退票概率参数、拒载成本、非自愿降舱成本、空置成本以及航线总运力中的至少一种。4.根据权利要求1所述的基于强化学习的舱位控制和超售方法,其特征在于,所述根据所述航空市场动力学仿真模型和价值函数,确定时空动态图,包括:获取初始航线图,所述初始航线图包括多个节点以及多个连接线;基于时序差分算法,以收益度量作为奖励函数,以风险度量作为惩罚项,确定每个所述节点对应的状态价值函数和动作价值函数;其中,所述状态价值函数用于描述每个所述节点的节点状态的价值,所述节点状态指示对应节点是否有对应的飞行器,所述动作价值函数用于描述对应节点执行第二动作的价值,所述第二动作是指从以对应节点为出发地的至少一个航线中选择航线,所述收益度量是指调用航空市场动力学仿真模型基于所选择的航线对应的第一状态信息和动作信息预测的收益信息;基于所述动作价值函数和所述状态价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,将添加有权值的初始航线图作为所述时空动态图。5.根据权利要求4所述的基于强化学习的舱位控制和超售方法,其特征在于,所述基于所述状态价值函数和所述动作价值函数之间的差值,确定所述初始航线图中的每个所述连接线对应的权值,包括:采用下述公式确定每个所述连接线对应的权值: 其中,W(i,j)表示所述初始航线图中从节点i指向节点j的连接线对应的权值,s
i
表示节点i的节点状态,a
ij
表示选择从节点i到节点i的航线的动
作,Q(s
i
,a
ij
)表示在(s
i
,a
ij
)时的动作价值函数,V(s
i
)...

【专利技术属性】
技术研发人员:张筱吴发国陈天元姚望
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1