一种具有隐私保护的交通流控制方法、交通信号控制系统技术方案

技术编号：30803415 阅读：22 留言：0更新日期：2021-11-16 08:10

一种具有隐私保护的交通流控制方法、交通信号控制系统，其中的系统包括一个区域层控制器和多个本地层控制器，区域层控制器和本地层控制器均为一强化学习控制模型，区域层控制器协调控制区域中多个本地层控制器，本地层控制器对各自所在路口的交通信号灯的状态进行学习和控制，并间隔固定时间将各路口的车辆队列长度汇总反馈给区域层控制器。其中本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度反馈给区域层控制器，保证了没有任何一个控制器能够一一获得所有本地层控制器所辖路口的拥堵情况，只能得到混合后的数据，实现了隐私保护。隐私保护。隐私保护。

全部详细技术资料下载

【技术实现步骤摘要】
一种具有隐私保护的交通流控制方法、交通信号控制系统

[0001]本专利技术涉及交通信号控制
，具体涉及一种具有隐私保护的交通流控制方法、交通信号控制系统。

技术介绍

[0002]在世界上各大都市区、连接两都市间的高速公路，及汽车使用率高的地区，常会出现交通拥堵问题。交通拥堵问题指的是一种车多拥挤且车速缓慢的现象，通常在节假日或上下班高峰期等时刻出现。在我国，大部分城市均存在着交通拥堵问题。交通拥堵问题给人们的生活和工作带来了许多不便，影响了出行效率，降低了生活质量。
[0003]从大框架来看，解决交通拥堵问题的方法主要有扩宽道路、发展公共交通、收费、限行、优化交通信号控制等等。优化交通信号控制的方法是解决交通拥堵问题的一种有效手段。随着技术的发展，已经出现了很多基于强化学习的交通信号控制方法。一般来说基于强化学习的交通信号控制方法需要进行交通建模，可分为：宏观交通建模和微观交通建模。交通信号控制的状态描述可分为：基于信号灯的状态和基于车辆的状态。建立好上述模型后，就可以建立全局拥堵因子，然后基于全局拥堵因子对交通信号进行控制。
[0004]为了更有效地进行交通信号的控制，同一区域中各个路口的交通信号控制器需要进行协同合作，难以避免的是多个交通信号控制器之间的信息交流、共享。然而在考虑协同合作时还应当考虑到隐私保护问题，在某些情况下路口中车辆的流量情况不能被广泛传播，在协调控制交通信号的时候应当保证没有任何一个交通信号控制器能够获得所有交通信号控制器所辖路口的拥堵情况。

技术实现思路
/>[0005]本申请提供一种具有隐私保护的交通流控制方法、交通信号控制系统和计算机可读存储介质，旨在缓解交通拥堵的同时，满足隐私保护的要求。
[0006]根据第一方面，一种实施例中提供一种具有隐私保护的交通流控制方法，应用于交通信号控制系统，所述交通信号控制系统包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值为其所在路口的车辆队列长度的负值；所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值为所有本地层控制器所在路口的车辆队列长度的平均值的负值；所述交通流控制方法包括：所述本地层控制器获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；然后获取调整后所在路口的车辆
队列长度，计算奖励值，进行一次强化学习的训练；每过t分钟，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器；所述区域层控制器接收所述平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器；所述本地层控制器接收所述区域层控制器发送的贪婪系数作为其新的贪婪系数，然后继续对其所在路口的交通信号灯进行控制；t分钟后，所述区域层控制器接收到所述本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练；其中，所述所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器，包括：将所有的N个本地层控制器按照0，1，2，
…
，N
‑
1的编号排序，每两个相邻的本地层控制器为一个集合，令j=1，执行以下步骤：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，其中k取所有非负整数且；对于所有编号为2jk的本地层控制器，若其接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则将接收到的车辆队列长度与自身的车辆队列长度按以下方式取平均，作为自己新的车辆队列长度：；若没有接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则不更新，其中i表示本地层控制器的编号；令j=2*j，若此时对任意的k都不存在编号为2jk + j的本地层控制器，则执行下一步骤，否则继续执行上述步骤，直至对任意的k都不存在编号为2jk + j的本地层控制器为止，从而最终使编号为0 的本地层控制器的车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度；编号为0 的本地层控制器将其车辆队列长度发送给所述区域层控制器。
[0007]根据第二方面，一种实施例中提供一种具有隐私保护的交通流控制方法，应用于本地层控制器，所述本地层控制器为一强化学习控制模型，所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值与其所在路口的车辆队列长度成反比，所述交通流控制方法包括：获取所述本地层控制器所在路口的车辆队列长度，并据此向所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；每过t分钟，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层
控制器，则将所述平均车辆队列长度发送给区域层控制器，所述区域层控制器为一强化学习控制模型；接收所述区域层控制器发送的贪婪系数作为新的贪婪系数，然后继续对所在路口的交通信号灯进行控制；t分钟后，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给所述区域层控制器，以使所述区域层控制器根据平均车辆队列长度计算奖励值，进行一次强化学习的训练；其中，所述与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给区域层控制器，包括：将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种具有隐私保护的交通流控制方法，应用于交通信号控制系统，其特征在于，所述交通信号控制系统包括一个区域层控制器和多个本地层控制器，所述区域层控制器和所述本地层控制器均为一强化学习控制模型；所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值为其所在路口的车辆队列长度的负值；所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值为所有本地层控制器所在路口的车辆队列长度的平均值的负值；所述交通流控制方法包括：所述本地层控制器获取其所在路口的车辆队列长度，并据此向其所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；然后获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；每过t分钟，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器；所述区域层控制器接收所述平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器；所述本地层控制器接收所述区域层控制器发送的贪婪系数作为其新的贪婪系数，然后继续对其所在路口的交通信号灯进行控制；t分钟后，所述区域层控制器接收到所述本地层控制器发送的平均车辆队列长度，并计算奖励值，进行一次强化学习的训练；其中，所述所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，该本地层控制器将所述平均车辆队列长度发送给所述区域层控制器，包括：将所有的N个本地层控制器按照0，1，2，
…
，N
‑
1的编号排序，每两个相邻的本地层控制器为一个集合，令j=1，执行以下步骤：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，其中k取所有非负整数且；对于所有编号为2jk的本地层控制器，若其接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则将接收到的车辆队列长度与自身的车辆队列长度按以下方式取平均，作为自己新的车辆队列长度：；若没有接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则不更新，其中i表示本地层控制器的编号；令j=2*j，若此时对任意的k都不存在编号为2jk + j的本地层控制器，则执行下一步骤，否则继续执行上述步骤，直至对任意的k都不存在编号为2jk + j的本地层控制器为止，从而最终使编号为0 的本地层控制器的车辆队列长度为所有本地层控制器所在路口的平
均车辆队列长度；编号为0 的本地层控制器将其车辆队列长度发送给所述区域层控制器。2.一种具有隐私保护的交通流控制方法，应用于本地层控制器，其特征在于，所述本地层控制器为一强化学习控制模型，所述本地层控制器的状态空间为其所在路口的车辆队列长度，动作空间包括增加或减少一个单位的某一方向放行的占比时间，奖励值与其所在路口的车辆队列长度成反比，所述交通流控制方法包括：获取所述本地层控制器所在路口的车辆队列长度，并据此向所在路口的交通信号灯输出动作指令，以调整不同方向放行的占比时间；获取调整后所在路口的车辆队列长度，计算奖励值，进行一次强化学习的训练；每过t分钟，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给区域层控制器，所述区域层控制器为一强化学习控制模型；接收所述区域层控制器发送的贪婪系数作为新的贪婪系数，然后继续对所在路口的交通信号灯进行控制；t分钟后，与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给所述区域层控制器，以使所述区域层控制器根据平均车辆队列长度计算奖励值，进行一次强化学习的训练；其中，所述与其他本地层控制器一起通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地层控制器中得到所有本地层控制器所在路口的平均车辆队列长度，若判断自身为得到所有本地层控制器所在路口的平均车辆队列长度的本地层控制器，则将所述平均车辆队列长度发送给区域层控制器，包括：将所有本地层控制器划分为若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为最后一个接收控制器，则将所述平均车辆队列长度发送给区域层控制器。3.如权利要求2所述的交通流控制方法，其特征在于，所述将所有本地层控制器划分为
若干集合，每个集合中预定一个本地层控制器作为第一轮接收控制器，集合中的其他本地层控制器将各自的车辆队列长度发送给第一轮接收控制器，第一轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；将所有第一轮接收控制器划分为若干集合，每个集合中预定一个第一轮接收控制器作为第二轮接收控制器，集合中的其他第一轮接收控制器将各自的车辆队列长度发送给第二轮接收控制器，第二轮接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值作为自己新的车辆队列长度；依此类推，直至只剩下最后一个接收控制器，该接收控制器计算所接收的车辆队列长度与自身的车辆队列长度的平均值，从而得到所有本地层控制器所在路口的平均车辆队列长度；若判断自身为最后一个接收控制器，则将所述平均车辆队列长度发送给区域层控制器，包括：将所有的N个本地层控制器按照0，1，2，
…
，N
‑
1的编号排序，每两个相邻的本地层控制器为一个集合，令j=1，执行以下步骤：所有编号为2jk + j的本地层控制器，将自己的车辆队列长度发送给对应编号2jk的本地层控制器，其中k取所有非负整数且；对于所有编号为2jk的本地层控制器，若其接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则将接收到的车辆队列长度与自身的车辆队列长度按以下方式取平均，作为自己新的车辆队列长度：；若没有接收到来自编号为2jk + j的本地层控制器发送的车辆队列长度，则不更新，其中i表示本地层控制器的编号；令j=2*j，若此时对任意的k都不存在编号为2jk + j的本地层控制器，则执行下一步骤，否则继续执行上述步骤，直至对任意的k都不存在编号为2jk + j的本地层控制器为止，从而最终使编号为0 的本地层控制器的车辆队列长度为所有本地层控制器所在路口的平均车辆队列长度；若判断自身为编号为0 的本地层控制器，则将其车辆队列长度发送给所述区域层控制器。4.一种具有隐私保护的交通流控制方法，应用于区域层控制器，其特征在于，所述区域层控制器为一强化学习控制模型，所述区域层控制器的状态空间为所有本地层控制器所在路口的车辆队列长度的平均值，动作空间包括增加或减少一个单位的本地层控制器的贪婪系数，奖励值与所有本地层控制器所在路口的车辆队列长度的平均值成反比，所述本地层控制器为一强化学习控制模型；所述交通流控制方法包括：每过t分钟，接收所有本地层控制器所在路口的平均车辆队列长度，并据此对各个本地层控制器的贪婪系数做出调整，将调整后的贪婪系数发送给本地层控制器，其中，所有本地层控制器通过树状通讯算法传递各自所在路口的车辆队列长度，并最终在其中一个本地...

【专利技术属性】
技术研发人员：梁予之，陈易翔，董文俊，雷凯，张良杰，何晟，闵江松，
申请(专利权)人：金蝶软件中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人