基于逆向强化学习的电梯调度方法、电子设备和存储介质技术

技术编号：41244003 阅读：4 留言：0更新日期：2024-05-09 23:55

本发明专利技术涉及升降设备的领域，尤其是涉及一种基于逆向强化学习的电梯调度方法、电子设备和存储介质，电梯调度方法包括如下步骤：获取电梯调度信息，获取电梯的特征属性，计算特征属性向量；构建调度策略集，获取一个调度策略，计算调度策略的特征期望值；获取专家调度策略，计算专家调度策略的特征期望值；计算支持向量的最大间隔；将最大间隔与预设的阈值进行比较，判断结果是否收敛，若结果未收敛，通过权重向量重新获得调度策略进行迭代计算，获得最优调度策略；根据最优调度策略进行电梯的调度。本发明专利技术具有能够针对不同用户不同场景所需的多个调度目标，自动进行电梯调度的权重分配，优化电梯调度的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及升降设备的领域，尤其是涉及一种基于逆向强化学习的电梯调度方法、电子设备和存储介质。

技术介绍

1、随着社会经济的高速发展，多功能高层建筑在城市中不断崛起，垂直交通问题愈发突出，是现代社会关注的问题之一。人们需要并排式的多部电梯满足日益增长的客流服务需求，还需要更高的电梯服务质量满足逐渐增长的各项指标要求，例如要求电梯载客效率更高、能耗更低、乘客平均等待时间更短、乘客在乘坐电梯过程中的舒适度更好等。因此，电梯调度方法正在由传统的单目标优化向多目标优化转变。

2、近年来，大部分多目标电梯调度方法的步骤是先定义多个优化目标，然后人工指定或分配多个目标间的权重，最后使用优化方法求解出调度方案。其中，多个目标间的权重比例决定了最终的调度效果，不同的场景对每个目标的权重要求是不一致的。例如，在上下班高峰期时，客流量很大，此时电梯一般更加偏重于乘客平均等待时间、乘客平均乘梯时间等目标；而在深夜客流量较少时，电梯可以更加偏重能耗目标。然而，多个目标在不同场景下的权重是变化的且是很难被人为精确定义的，因此目前多个目标间的权重比例一般需要由有丰富调度经验的调度人员设定，其是一个经验估计值，只能在一定程度上保证达到预期的调度效果。此外，每个调度人员对同一场景设置的权重比例不尽相同，当存在多名调度人员设定的权重值时，如何采纳得到一个合理的最终权重值也亟待解决。

技术实现思路

1、为了能够针对不同用户不同场景所需的多个调度目标，自动进行电梯调度的权重分配，优化电梯调度，本专利技术提

2、本专利技术提供一种基于逆向强化学习的电梯调度方法，采用如下的技术方案：

3、一种基于逆向强化学习的电梯调度方法，包括如下步骤：

4、获取电梯调度信息，构建专家调度策略集；

5、获取所述电梯的特征属性，计算特征属性向量；

6、构建回报函数；

7、随机获取一个调度策略，计算所述调度策略的特征期望值；

8、获取所述专家调度策略集的专家调度策略，计算所述专家调度策略的特征期望值；

9、基于线性优化算法，求解在时刻的最优权重；

10、将与预设的阈值进行比较，若，表明结果未收敛；

11、基于计算所述回报函数，计算本次迭代的最优策略及特征期望值，令，重新进行和的计算；

12、若，表明结果收敛，该调度策略为最优调度策略；

13、根据所述最优调度策略进行所述电梯的调度，并记录和存储调度数据。

14、在一个具体的可实施方案中，所述专家调度策略集，其中，为专家调度策略集中专家的总数，为时刻第位专家的状态序列轨迹，所述专家调度策略从所述状态序列轨迹提取。

15、在一个具体的可实施方案中，所述特征属性包括候梯人平均等待时间、乘梯人平均运送时间、候梯人流失数量、乘梯人情绪、候梯人情绪、电梯能耗。

16、在一个具体的可实施方案中，所述专家调度策略的特征期望值，以及所述调度策略的特征期望值可以通过蒙特卡罗近似得到。

17、在一个具体的可实施方案中，所述调度策略的特征期望值通过公式：

18、

19、其中，为状态，

20、为调度策略，即在状态使用动作的概率分布的映射，

21、为时间戳，

22、为折扣因子，

23、为实数集。

24、在一个具体的可实施方案中，所述特征属性可以由电梯的运行速度、电梯的运行加速度、电梯的运行时间、电梯的承重；

25、乘梯人的年龄、性别、体型、情绪、在电梯中的具体坐标；

26、候梯人的年龄、性别、体型、情绪、在电梯外的具体坐标、在电梯外的运动轨迹转化得到。

27、在一个具体的可实施方案中，根据存储的所述调度数据，进行异常数据分析，提取所述异常数据，并输出；

28、获取修正策略，在所述专家调度策略集中并入所述修正策略。

29、在一个具体的可实施方案中，根据所述电梯的总体性能评价分的下降，进行所述异常数据的分析，

30、当并入所述专家调度策略集的所述修正策略达到所述专家调度策略集中总数据量的10%-20%时，重新生成回报函数，更新所述最优调度策略。

31、本专利技术还提供一种电子设备，采用如下的技术方案：

32、一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的基于逆向强化学习的电梯调度方法。

33、本专利技术还提供一种一种存储有计算机指令的非瞬时计算机可读存储介质，采用如下的技术方案：

34、一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述的基于逆向强化学习的电梯调度方法。

35、综上所述，本专利技术包括以下至少一种有益技术效果：

36、1.通过构建专家调度数据集，建立与多目标相关的特征，利用逆向强化学习算法学习得到回报函数，再基于该回报函数利用强化学习算法训练出最优调度策略，自动优化电梯的调度。

37、2. 在运行最优调度策略时，实时采集电梯运行数据，监控异常调度情形，将专家指导修正后的优化方案加入专家调度数据集，在累计一定量后重新学习回报函数和重新求解最优调度策略，以保证调度策略的自适应性。

本文档来自技高网...

【技术保护点】

1.一种基于逆向强化学习的电梯调度方法，其特征在于：包括如下步骤：

2. 根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述专家调度策略集，其中，为专家调度策略集中专家的总数，为时刻第位专家的状态序列轨迹，所述专家调度策略从所述状态序列轨迹提取。

3.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述特征属性包括候梯人平均等待时间、乘梯人平均运送时间、候梯人流失数量、乘梯人情绪、候梯人情绪、电梯能耗。

4.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述专家调度策略的特征期望值，以及所述调度策略的特征期望值可以通过蒙特卡罗近似得到。

5.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述调度策略的特征期望值通过公式：

6.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述特征属性可以由电梯的运行速度、电梯的运行加速度、电梯的运行时间、电梯的承重；

7.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：根

8.根据权利要求7所述的基于逆向强化学习的电梯调度方法，其特征在于：根据所述电梯的总体性能评价分的下降，进行所述异常数据的分析，

9.一种电子设备，其特征在于：包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行权利要求1-8中任一所述的基于逆向强化学习的电梯调度方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于：计算机指令用于使计算机执行权利要求1-8中任一项所述的基于逆向强化学习的电梯调度方法。

...

【技术特征摘要】

1.一种基于逆向强化学习的电梯调度方法，其特征在于：包括如下步骤：

5.根据权利要求1所述的基于逆向强化学习的电梯调度方法，其特征在于：所述调度策略的特征期望值通过公式：

6.根据权利要求1所述的基于逆向强化学习的电梯调度方法...

【专利技术属性】
技术研发人员：周旭，顾月江，廖宏明，于青松，高鹏，
申请(专利权)人：通用电梯股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人