一种基于强化学习的智能路由方法技术

技术编号:19704977 阅读:59 留言:0更新日期:2018-12-08 15:02
本发明专利技术公开一种基于强化学习的智能路由方法,针对先应式路由需要维护全局路由表,会带来较大的通信开销,反应式路由在发送数据前需要进行一次寻路操作,又会造成时延较大的问题;本发明专利技术的方法为不同优先级的业务分别维护一张Q‑表,并根据不同优先级的自适应概率p确定是否进行全回声探索,然后进行路由的更新、维护与决策;本发明专利技术按照自适应的概率p进行全回声探索,减少了路由开销;结合全回声探索与Q‑值的更新机制在一定程度上降低了系统时延。

【技术实现步骤摘要】
一种基于强化学习的智能路由方法
本专利技术属于通信网络领域,特别涉及一种无线自组织网络中的智能路由技术。
技术介绍
无线自组织网络,又称为Ad-Hoc网络,是一种对等网络,不依赖网络基础设施而进行通信。由于无线信号衰减迅速,节点的传输范围有限,干扰与噪声又无处不在。因此,在数据发送的过程中,源节点一般需要其他节点的数据中继,所以,路由协议是无线自组织网络中,不可缺少的关键部分。路由协议是网络中从源节点经过若干个中继节点将报文发送到目的节点的机制。传统的路由协议可以分为先应式、反应式两类。先应式路由在任何情况下,每个节点都掌握着全局拓扑,维护了到任意其他节点的路由表,所以又称为表驱动的路由协议,代表协议为基于Dijkstra算法的LSR路由协议与基于Bellman-ford算法的DSDV路由协议。反应式路由是一种只有在需要发送数据时,才进行节点间路径建立的路由,不需要维护路由表,也不需要进行定期的更新,反应式路由在网络流量较小的时候,可以显著减少路由开销,代表协议为DSR路由协议与AODV路由协议。在网络智能化的需求下,无线自组织这类具有动态的网络拓扑的网络,路由协议应该在满足业务的QoS需求的同时,增强路由的自适应性,减少寻路机制的复杂性,降低路由开销,高效利用网络有限的资源。先应式路由需要维护全局路由表,在拓扑变化的网络中,会带来较大的通信开销,而反应式路由在发送数据前需要进行一次寻路操作,又会造成时延较大的问题。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于强化学习的智能路由方法,节点为不同优先级的业务分别维护一张Q-表,在一定程度上降低了系统时延,减少了路由开销,并且很好的协调了不同优先级的业务。本专利技术采用的技术方案为:一种基于强化学习的智能路由方法,包括:节点为每一种业务维护一张Q-表;根据自适应概率,确定当前节点是否进行全回声探索,若是,则更新该节点对应业务的Q-表后执行以下过程;否则直接执行以下过程:为当前节点缓冲队列中的每一个报文选择多个备选下一跳;并根据匈牙利最大匹配算法获得匹配决策。进一步地,根据自适应概率,确定当前节点是否进行全回声探索;具体为:若当前节点生成的(0,1)区间内的随机数大于自适应概率,则进行全回声探索,否则不进行全回声探索。进一步地,执行全回声探索后,更新该节点对应业务的Q-表,具体为:当前节点的邻居节点收到全回声探测报文后,根据全回声探测报文所属业务的Q-表中查找到达该业务目的节点的最优Q-值,并将该最优Q-值反馈给节点x,节点x根据反馈的最优Q-值对该业务Q-表进行更新。进一步地,为当前节点缓冲队列中的每一个业务报文选择多个备选下一跳,具体为:根据业务报文在当前节点的平均排队时延,确定N个备选下一跳作为该业务报文的备选下一跳。更进一步地,所述N个备选下一跳的Q-值属于集合[q,q+ri],q表示当前业务的Q-表中的最优Q-值,ri表示第i种业务的报文在当前节点的平均排队时延。进一步地,根据匈牙利最大匹配算法获得匹配决策,具体包括以下分步骤:A1、根据各业务报文对应的备选下一跳生成一张二分图;A2、按照业务优先级顺序和FIFO规则,依次为每种优先级的业务报文使用匈牙利最大匹配算法确定最优下一跳。更进一步地,步骤A2之后,还包括:每完成一种业务报文的匹配后,更新当前节点的链路容量。进一步地,若当前节点缓冲队列中的报文已完成匹配决策,则按照匹配结果发送所有匹配成功的报文,匹配不成功的报文在下一窗口重新进行匹配决策;然后对所有报文,进行对应业务的Q-表更新。更进一步地,进行对应业务的Q-表更新后,还包括更新节点的自适应学习率以及自适应概率。本专利技术的有益效果:本专利技术的一种基于强化学习的智能路由方法,为不同优先级的业务分别维护一张Q-表,并根据不同优先级的自适应概率p确定是否进行全回声探索,然后进行路由的更新、维护与决策;本专利技术按照自适应的概率p进行全回声探索,减少了路由开销;结合全回声探索与Q-值的更新机制在一定程度上降低了系统时延;本专利技术的方法相比于现有技术更具有智能性,能够更高效的利用网络资源,为动态变化的网络中的自适应智能路由问题提出了一个很有前景的解决方案。附图说明图1为本专利技术实施例提供的方案流程图;图2为本专利技术实施例提供的二分图。具体实施方式为了便于本领域的普通技术人员理解本专利技术,首先对技术术语做出如下定义:Q-学习:Q-学习通过引进期望的延迟回报的方法,解决了缺乏信息条件下的MDP问题,可以认为Q-学习基于瞬时策略,是一个独立模型的特殊的强化学习方法。Q-路由:在无线自组织网络中,利用Q-学习的环境交互能力,在少量增加网络开销的情况下,对网络环境进行学习和预测的一种基本路由算法。自适应:根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果的过程。二分图:顶点可以分为两个集合,每一条边的端点都分别位于这两个集合的图。匹配:在图论中,一个“匹配”是一个边的集合,其中任意两条边都没有公共顶点。最大匹配:一个图所有匹配中,所含匹配边数最多的匹配,称为这个图的最大匹配。假设在无线自组织网络中,每个节点均具有通信需求,且网络中存在三种优先级的业务。传统的路由算法使用跳数或者距离当作标准衡量一条路径的好坏来获得路由表,对于较为空闲的网络环境,这样的衡量标准是合理的,然而对于较为忙碌的环境,网络负载较高,单一的距离或者跳数最为标准,会造成网络的两极分化,在某些网络节点上发生堵塞,而其他的一些节点却非常空闲。如图1所示,本专利技术的一种基于强化学习的智能路由方法,包括:S1:本专利技术提出的路由算法在每一个时间窗口的开始运行,首先判断是否进行全回声探索与相应的Q-表的更新。针对该问题,本步骤包括两个分步骤,步骤S11为判断是否进行全回声探索;步骤S12是在步骤S11进行全回声探索的基础上对Q-表执行相应的更新。具体为:S11、当前节点x生成一个(0,1)区间内的随机数r,将r与概率p作比较,若r>p,则进行全回声探索,节点x向其所有邻居发送各优先级业务的探测报文(默认同一优先级业务的报文目的地相同)。反之,若r<p,则不进行全回声探索。本专利技术中,p的初始值设为0,即,算法开始时必然先进行一次全回声探索。S12、当前节点x的邻居节点收到步骤S11发送的全回声探测报文后,根据探测报文所属业务在相应的Q-表中查找到达该业务目的节点的最优Q-值,并将此Q-值作为t返回给节点x。节点x收到反馈信息后根据下式进行对应业务Q-表中Q-值的更新:其中,η′i为第i种业务的自适应学习率,根据是否进行全回声探索η′i的取值;表示当前第i种业务的Q-表中,节点x通过邻居节点y到达目的节点D的Q-值;表示更新后的Q-值;t为通过邻居节点y去往目的节点D的最短剩余时间,N(y)是节点y的所有邻居节点集合;q是报文在该节点队列的等待时间,s是节点x与节点y之间的传输时延。初始时Q-值设为0,由于概率p的初始值为0,所以节点在第一次发送数据之前就会使用全回声探索更新Q-值。本专利技术方法中,对于Q-值的描述是基于数据传递的交付总时延的,对于经历n跳后完成数据传递的交付总时延由下式表示本文档来自技高网...

【技术保护点】
1.一种基于强化学习的智能路由方法,其特征在于,包括:节点为每一种业务维护一张Q‑表;根据自适应概率,确定当前节点是否进行全回声探索,若是,则更新该节点对应业务的Q‑表后执行以下过程;否则直接执行以下过程:为当前节点缓冲队列中的每一个报文选择多个备选下一跳;并根据匈牙利最大匹配算法获得匹配决策。

【技术特征摘要】
1.一种基于强化学习的智能路由方法,其特征在于,包括:节点为每一种业务维护一张Q-表;根据自适应概率,确定当前节点是否进行全回声探索,若是,则更新该节点对应业务的Q-表后执行以下过程;否则直接执行以下过程:为当前节点缓冲队列中的每一个报文选择多个备选下一跳;并根据匈牙利最大匹配算法获得匹配决策。2.根据权利要求1所述的一种基于强化学习的智能路由方法,其特征在于,根据自适应概率,确定当前节点是否进行全回声探索;具体为:若当前节点生成的(0,1)区间内的随机数大于自适应概率,则进行全回声探索,否则不进行全回声探索。3.根据权利要求2所述的一种基于强化学习的智能路由方法,其特征在于,执行全回声探索后,更新该节点对应业务的Q-表,具体为:当前节点的邻居节点收到全回声探测报文后,根据全回声探测报文所属业务的Q-表中查找到达该业务目的节点的最优Q-值,并将该最优Q-值反馈给节点x,节点x根据反馈的最优Q-值对该业务Q-表进行更新。4.根据权利要求3所述的一种基于强化学习的智能路由方法,其特征在于,为当前节点缓冲队列中的每一个业务报文选择多个备选下一跳,具体为:根据业务报文在当前节点的平均排队时延,确定N个备选下一跳作为该业务报文的备选下一跳。5.根据权利要求4所述的一种...

【专利技术属性】
技术研发人员:黄晓燕张悦田杜嘉诚吴凡马立香冷甦鹏
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1