基于Q学习的车载自组织网络路由方法技术

技术编号:11500133 阅读:58 留言:0更新日期:2015-05-22 20:18
本发明专利技术涉及一种基于Q学习的车载自组织网络路由方法,属于物联网通信技术领域。该方法:1)网络中的车辆均装载有GPS全球定位系统,车辆过彼此间传递Hello消息获取邻居节点信息;2)将城市区域划分成相等的网格,每个网格的位置代表一个不同的状态,从一个网格转移到相邻的网格代表一个动作;3)Q值表的学习。4)参数的设定;5)路由选择策略QGrid_G、QGrid_M。新加入网络中的车辆会从邻居车辆那里获得线下学习得到的Q值表,车辆根据消息目的网格查询Q值表就可以获知消息传递的最优下一跳网格。本发明专利技术从宏观上考虑车辆最经常行驶的网格序列,从微观上考虑选择最有可能到达最优下一跳网格的车辆,宏观和微观结合的方式有效提高了消息在城市交通网络中的传递成功率。

【技术实现步骤摘要】
基于Q学习的车载自组织网络路由方法
本专利技术属于物联网通信
,具体涉及车载自组织网络的路由选择方法,用于解决车载物联网在复杂多变环境下路由选择的问题。
技术介绍
车载自组织网络(VehicularAdHocNetworks,VANETs)是一种高速移动的无线网络,它依靠短距离通信技术实现车与车以及车与路边基础设备之间的通信。目前适用于车载物联网的基于地理位置的路由协议算法主要有以下几种:1)GPSR(GreedyPerimeterStatelessRouting)协议基于地理位置和贪婪转发路机制。在协议中,当前节点总是将数据包传递给距离目的节点最近邻居节点。然而,在拥堵、繁忙、低速的城市环境下,GPSR协议在可行性、可靠性和稳定性等方面仍存在一些不足之处。2)GPCR(GreedyPerimeterCoordinatorRouting)协议。GPCR协议借助街道路口的枢纽节点形成的自然平面图,沿着道路进行贪婪或者边缘模式转发。数据包总是被转发到枢纽节点上,根据目的节点位置进行路由方向的选择。但GPCR仍然不能很好的解决数据传输到路口附近时,容易产生中断的问题。3)GSR(GeographicSourceRouting)协议依赖于地图的可用性,利用Dijkstra算法计算源节点通过岔路口到达目的节点的序列。协议简单,且容易实现,但在应付快速变化的拓扑结构方面效率非常差。由于车载自组织网络具有自治性、多跳路由、网络容量有限,拓扑结构高速动态变化、网络频繁中断、能量充足、计算能力较强和存储空间足够以及移动模型的可预测性等特点。现存的路由协议都存在某些方面的不足,因此,需要设计更符合车联网运动特点的新的路由算法。
技术实现思路
本专利技术的目的是针对城市交通网络环境复杂多变的问题,提供一种车载自组织网络路由方法,无论网络连通性的好坏,都能尽可能的提高数据包传递成功率。本专利技术提供了一种基于地理位置并结合强化学习算法Q学习的一种车载自组织网络路由方法。通过结合宏观和微观两个方面进行路由传递,从而在尽可能提高数据包传递成功率的同时,不至于产生较长的时延、太大的网络拥塞、以及较高的平均转发跳数。本专利技术的目的是通过下述技术方案实现的。一种基于Q学习的车载自组织网络路由方法,包括以下步骤:步骤一、将城市区域划分成相等的网格,记录每一个网格中过去一段时间内经过车辆的轨迹信息。步骤二、设定参数值。初始化网格中所有(状态,动作)对对应的Q函数值。α学习因子的取值按照经验值设定。折扣因子γ的值与网格中经过车辆频繁程度有关,数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率。步骤三、根据步骤一和步骤二学习Q值表。利用公式离线学习Q值表。其中st代表t时刻的状态,at代表t时刻采取的动作,Q(st,at)代表该(状态,动作)对所对应的Q值,α代表学习因子,γ代表折扣因子,fR代表奖励函数,fS代表状态转移函数,a′代表对应下一个状态的动作。步骤四、根据步骤三学习得到Q值表转发数据包,新加入网络中的车辆会从邻居车辆共享得到的Q值表。车辆根据数据包的目的网格查询Q值表确定最优下一跳网格,然后利用贪婪的选择策略QGrid_G和Markov选择策略QGrid_M确定该网格中的具体下一跳节点。有益效果本专利技术提出的方法是基于地理位置信息的车载自组织网络路由方法,此方法从宏观上考虑车辆频繁经过的网格序列,从微观上按照不同的策略选择具体的车辆。宏观和微观结合的方式有效提高了数据包在城市交通网络中的传递成功率。网络中的车辆采用“存储-携带-转发”的模式进行数据包传递,本专利技术中的车辆只需要查询Q值表进行数据包的传递,不需要路由发现以及路由维护,更能满足实际的车载自组织网络,更适合真实城市交通网络环境。本专利技术是单副本数据包传递,因此不会产生太大的网络拥塞。数据包总是沿着当前最优的下一跳网格传递,在提高传递成功率的同时带来了一定的时延。因此,本专利技术更适合应用在对传输时延要求不高、数据传递成功率要求较高的网络场景。附图说明图12007年1号到8号不同网格中车辆GPS记录条数变化图;图2本专利技术的智能体通过学习不断获得每一步动作对应的Q值;图3本专利技术的基于Q学习和网格的路由算法流程图;图4本专利技术的Markov选择策略;图5实验场景参数设置;图6当时间片ΔT=1s时,QGrid_G、QGrid_M、HarpiaGrid以及GPSR路由传递成功率;图7当时间片ΔT=1s时,QGrid_G、QGrid_M、HarpiaGrid以及GPSR路由传递成功数据包的平均时延;图8当时间片ΔT=20s时,QGrid_G、HarpiaGrid以及GPSR路由传递成功率;图9当时间片ΔT=20s时,QGrid_G、HarpiaGrid以及GPSR路由传递成功数据包的平均时延。具体实施方式下面结合附图和实施例对本专利技术的具体实施方式做进一步详细说明。本部分将结合上述附图对基于Q学习以及网格的路由路由选择方法做详细说明,此方法所包括各个部分的具体实施方式如下:步骤一、将城市区域划分成相等的网格,记录每一个网格中过去一段时间内经过车辆的轨迹信息。由于网络中的车辆均装载有GPS全球定位系统,车辆通过彼此间传递Hello数据包获取邻居节点信息。图1是2007年2月1号至2007年2月8号上海市火车站附近区域不同网格中车辆GPS记录条数的变化情况。其中,区域面积是1200m×1200m,边长为200m。由于车辆上传GPS点的频率固定,因此网格中车辆的GPS记录数大致可以表明网格中车辆经过的频繁程度。从图中可以得出每天不同网格中经过车辆的比例大致稳定。步骤二、设定参数值。初始化网格中所有(状态,动作)对所对应的Q函数值,实际的初始值为0。α学习因子的取值按照经验进行设定,通常情况下设置为0.8。学习因子越小代表外界环境的变化对当前的状态值影响越小,即学习越慢;学习因子越大代表外界环境的变化对当前的状态值影响越大,即学习越快。折扣因子γ的值与网格中经过车辆频繁程度有关,数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率。经过车辆的GPS记录条数多的网格对应的Q学习公式中折扣因子γ的值越大。γ的具体取值如下:其中,代表网格sk中经过车辆的记录次数,代表不同网格中经过车辆次数的平均值。此公式的目的是将γ的取值映射到[0.3,0.9]之间,其中系数β是一个可变量,根据具体需求去设定其值。本专利中将β值设置为0.6,目的是时,γ的取值为平均水平即0.6。fR代表奖励函数,如果携带数据包的车辆当前所在的网格是目的网格的邻居网格,将会获得一个正向的奖励值100,否则奖励值为0。fS代表状态转移函数,即智能体选择某一个动作以后所对应的状态。步骤三、根据步骤一和步骤二学习Q值表。由于每天不同网格中经过车辆的比例大致稳定,因此可以通过智能体的线下学习获得Q值表。Q学习是模型无关的强化学习算法。Q学习的目标就是通过对客观世界的不断探索,寻找一个可以最大化获取报酬的策略。Q学习中,每个(状态,动作)对对应一个相应的Q值Q(st,at),其定义如下:Q值的获得是一个不断迭代的过程,每选择一个动作就会对前一个状态的Q值产生影响。如图2所示,智能体通过学习不断获得每一步动作对应的Q值,获取Q值的步骤如本文档来自技高网
...

【技术保护点】
一种基于Q学习的车载自组织网络路由方法,其特征在于,包括以下步骤:步骤一、将城市区域划分成相等的网格,记录每一个网格中过去一段时间内经过车辆的轨迹信息;步骤二、设定参数值初始化网格中所有(状态、动作)对应的Q函数值;α学习因子的取值按照经验值设定;折扣因子γ的值与网格中经过车辆频繁程度有关,数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率;步骤三、根据步骤一和步骤二学习Q值表,利用公式Q(st,at)←(1-α)Q(st,at)+α(fR(st,at)+γmaxa′Q(fS(st,at),a′))]]>离线学习Q值表,其中st代表t时刻的状态,at代表t时刻采取的动作,Q(st,at)代表该(状态,动作)对所对应的Q值,α代表学习因子,γ代表折扣因子,fR代表奖励函数,fS代表状态转移函数,a′代表对应下一个状态的动作;步骤四、根据步骤三学习得到Q值表转发数据包,新加入网络中的车辆会从邻居车辆共享得到的Q值表;车辆根据数据包的目的网格查询Q值表确定最优下一跳网格,然后利用利用贪婪的选择策略QGrid_G和Markov选择策略QGrid_M确定该网格中的具体下一跳节点。...

【技术特征摘要】
1.一种基于Q学习的车载自组织网络路由方法,其特征在于,包括以下步骤:步骤一、将城市区域划分成相等的网格,记录每一个网格中过去一段时间内经过车辆的轨迹信息;步骤二、设定参数值,初始化网格中所有(状态,动作)对对应的Q函数值,α学习因子的取值按照经验值设定,折扣因子γ的值与网格中经过车辆频繁程度有关,数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率;步骤三、根据步骤一和步骤二学习Q值表,利用公式离线学习Q值表,其中st代表t时刻的状态,at代表t时刻采取的动作,Q(st,at)代表该(状态,动作)对所对应的Q值,α代表学习因子,γ代表折扣因子,fR代表奖励函数,fS代表状态转移函数,a′代表对应下一个状态的动作,具体步骤如下:第一步:将不同网格看作不同的状态s,从一个网格移动到邻居网格看作一个动作,初始化Q函数值,将所有(状态,动作)对对应的Q函数值设置为0;第二步:观察当前网格状态为s;第三步:不断重复以下步骤:(1)、根据当前Q函数值选择动作a;(2)、根据奖励函数获得奖励值r;(3)、观察新的网格状态s′;(4)、(5)、令s=s′;步骤四、根据步骤三学习得到Q值表转发数据包,新加入网络中的车辆会从邻居车辆共享得到的Q值表,车辆根据数据包的目的网格查询Q值表确定最优下一跳网格,然后利用贪婪的选择策略QGrid_G和Mark...

【专利技术属性】
技术研发人员:李凡李瑞玲宋肖玉王昱
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1