当前位置: 首页 > 专利查询>刘显峰专利>正文

一种用强化学习算法对酒店客房进行收益管理的方法技术

技术编号:28841521 阅读:41 留言:0更新日期:2021-06-11 23:40
本发明专利技术公开了一种用强化学习算法对酒店客房进行收益管理的方法,包括状态、智能体、动作和回报;一个所述智能体每次从环境中获取一个状态数据,作为它对当前环境状态的认知,以及一组可执行的动作,所述智能体根据状态从一组动作中采取一个动作进行执行,执行之后所述环境返回一个回报;所述状态指收益管理系统能够获取到的各种酒店运营数据;所述动作指客房的定价和超售量。本发明专利技术采用强化学习算法训练模型替代了传统收益管理系统中手工编制的数学模型,降低软件成本,提高预测准确度的效果,利用历史数据和在线数据训练模型,使其达到某种优化目标,相比传统方法的人工建模无需高深的领域知识,并对各种情况有着更广泛的适应性。

【技术实现步骤摘要】
一种用强化学习算法对酒店客房进行收益管理的方法
本专利技术涉及酒店收益管理
,具体为一种用强化学习算法对酒店客房进行收益管理的方法。
技术介绍
酒店收益管理是指通过对酒店销售产品在合适的时间进行合适的定价,从而实现酒店收益最大化的管理方法。酒店收益管理是一个综合的过程,由专门的收益管理人员负责,借助酒店管理层、销售部门和一线部门的合作,收益管理系统的辅助完成。其中收益管理系统是指采集酒店运行的各种数据,通过一定的算法对酒店收益进行预测的软硬件系统。相比由人手工采取数据并进行计算预测的传统方法,收益管理系统有着提高效率、增强预测能力、推进信息化管理等多种优点。本专利技术亦属于一种收益管理系统。现有的收益管理系统的应用,由专门的收益管理软件公司完成,软件公司首先组织行业专家建立酒店收益管理的复杂数学模型,将其编制为软件,然后与酒店合作,将酒店的运营数据导入软件,通过算法模型计算出收益预测和定价策略。这种方法的准确率完全依赖于所用的数学模型,因此成本甚高,需要聘请大量行业专家进行复杂的数学推导才能完成。假如模型有误,就会影响到预本文档来自技高网...

【技术保护点】
1.一种用强化学习算法对酒店客房进行收益管理的方法,其特征在于,包括状态、智能体、动作和回报;/n一个所述智能体每次从环境中获取一个状态数据,作为它对当前环境状态的认知,以及一组可执行的动作,所述智能体根据状态从一组动作中采取一个动作进行执行,执行之后所述环境返回一个回报;/n所述状态指收益管理系统能够获取到的各种酒店运营数据,所述数据分为外部数据和内部数据,所述外部数据和内部数据一起作为状态数据输入智能体中;/n所述动作指客房的定价和超售量;/n所述回报即酒店在入住日获得的利润或销售额;/n所述强化学习算法中的数学模型需要进行学习,所述学习分为离线学习和在线学习,所述在线学习和离线学习可以共...

【技术特征摘要】
1.一种用强化学习算法对酒店客房进行收益管理的方法,其特征在于,包括状态、智能体、动作和回报;
一个所述智能体每次从环境中获取一个状态数据,作为它对当前环境状态的认知,以及一组可执行的动作,所述智能体根据状态从一组动作中采取一个动作进行执行,执行之后所述环境返回一个回报;
所述状态指收益管理系统能够获取到的各种酒店运营数据,所述数据分为外部数据和内部数据,所述外部数据和内部数据一起作为状态数据输入智能体中;
所述动作指客房的定价和超售量;
所述回报即酒店在入住日获得的利润或销售额;
所述强化学习算法中的数学模型需要进行学习,所述学习分为离线学习和在线学习,所述在线学习和离线学习可以共同优化同一个模型;
在模型学习完毕之后,可以进行预测,预测时,向模型输入当前的状态,模型即返回预测的各房型当前最优房价;
所述收益管理的方法步骤如下:
(1)决定强化学习模型所使用的参数种类和数量,如日期时间精度,收益等级,房型种类等,根据参数数量,选定恰当的模型;
(2)输入多组状态-动作-回报历史数据,用历史数据训练模型;
(3)用学习好的模型,根据当前状态,预测房价取值的动作;
(4)在入住日结算后,根据之前预测动作的数据,继续训练模型;
(5)不断重复上面两步。


2.根据权利要求1所述的一种用强化学习算法对酒店客房进行收益管理的方法,其特征在于:所述离线学习使用历史数据,历史数据中包含多组完整的状态-动作-回报数据,即在多个时间点,酒店处于一个什么状...

【专利技术属性】
技术研发人员:刘显峰
申请(专利权)人:刘显峰
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1