一种自组织网络基于时延约束的Q学习分组传输方法技术

技术编号:13589289 阅读:93 留言:0更新日期:2016-08-25 16:06
本发明专利技术公开了一种自组织网络基于时延约束的Q学习分组传输方法,所述自组织网络基于时延约束的Q学习分组传输方法旨在解决当无线自组织网络中的节点面临多个通往目的节点的下一跳且端到端时延参数时变情况下,满足时延约束指标的中继路径的自主学习和中继节点的动态选择问题。网络节点自主学习通往目的节点的不同路径的端到端时延参数;网络节点在面临多个通往目的节点且满足时延约束指标的下一跳时,将不同下一跳节点的端到端传输时延归一化处理后作为每一次传输时的选择概率,动态选择下一跳节点进行传输,从而降低网络的端到端传输时延。本发明专利技术采用的将时延约束与Q学习相结合的分组传输方法提升了无线自组织网络的传输性能。

【技术实现步骤摘要】

本专利技术属于通信
,尤其涉及一种自组织网络基于时延约束的Q学习分组传输方法
技术介绍
Q学习是一种模型无关的强化学习算法,Q学习要解决的是这样的问题:一个能感知环境的自治代理如何通过学习选择能达到其目标的最优动作。主要应用于学习控制机器人的移动,在工厂中学习最优操作工序以及学习棋类对弈等。当代理在其环境中做出一个动作时,施教者会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练代理进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。代理的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的累积效应。Q学习在人工智能领域已得到大范围应用并且性能优良。在无线自组织网络中,一个节点到目的节点往往具有多个下一跳节点,因此如何选择通往目的节点的下一跳节点来降低端到端的时延、提升网络传输性能就变得尤为重要。
技术实现思路
本专利技术的目的在于提供一种自组织网络基于时延约束的Q学习分组传输方法,旨在解决当无线自组织网络中的节点面临多个通往目的节点的下一跳且端到端时延参数时变情况下,满足时延约束指标的中继路径的自主学习和中继节点的动态选择问题。本专利技术是这样实现的,一种自组织网络基于时延约束的Q学习分组传输方法,所述自组织网络基于时延约束的Q学习分组传输方法通过网络节点自主学习通往目的节点的不同路径的端到端时延参数;网络节点在面临多个通往目的节点且满足时延约束指标的下一跳时,将不同中继节点的端到端传输时延归一化处理后作为每一次传输时的选择概率,动态选择下一跳节点,从而提升网络端到端传输性能。进一步,所述自组织网络基于时延约束的Q学习分组传输方法包括以下步骤:步骤一:对去往目的节点的Q表进行初始化,设置时延奖励值,设定端到端时延约束指标;步骤二:根据Q表选择去往目的节点的下一跳节点,发送前向控制报文;步骤三:收到前向控制报文的下一跳节点向发送节点回复反向控制报文;步骤四:收到前向控制报文的下一跳节点若非目的节点则转发前向控制报文;步骤五:发送节点收到反向控制报文,对Q表进行更新;步骤六:间隔一段时间,重复步骤二至步骤五。进一步,所述步骤一中,任意节点u的Q表初始化方法如下:Q表至少包括目的节点IP地址、下一跳节点IP地址和Q值字段;其中下一跳节点IP地址字段存放由本节点去往目的节点的下一跳节点的IP地址,Q值字段存放下一跳节点IP地址对应的Q值,初始化为0。进一步,所述步骤一中,任意节点u设置奖励值au→d的方法如下:当目的节点不是本节点时,au→d=0,当目的节点是本节点时,au→d=Ad,Ad为一正常量。进一步,所述步骤二中,任意节点u选择去往目的节点d的下一跳节点的方法如下:根据Q表中的值去往目的节点的下一跳节点的选择概率pvu→d=qvu→d/Σv∈Nu→dqvu→d;]]>其中为节点u选择节点v作为下一跳传输至目的节点d的Q值,Nu→d为节点u去往目的节点d的所有满足时延约束指标的可选下一跳节点构成的集合;任意节点u按概率选择下一跳节点,发送前向控制报文,前向控制报文至少包含控制报文类型、发送节点IP地址、下一跳节点IP地址、目的节点IP地址、报文发送时间字段。进一步,所述步骤三中,节点v收到来至节点u的前向控制报文后的处理方法如下:节点v从收到的报文中获得前向控制报文的发送时间,根据报文的接收时间计算报文的传输时延du→v;节点v获得关于目的节点d的奖励值av→d,计算去往目的节点d的Q表的期望值q‾v→d=Σw∈Nv→dpwv→d·qwv→d;]]>其中Nv→d为节点v去往目的节点d的所有满足时延约束指标的可选下一跳节点构成的集合;节点v向节点u发送反向控制报文;反向控制报文至少包含控制报文类型、本节点的奖励值av→d、发送节点到本节点的传输时延du→v、本节点去往目的节点Q表的期望值进一步,所述步骤五中,发送节点u收到来至下一跳节点v的反向控制报文后的处理方法如下:节点u计算本次所选择去往目的节点d的下一跳节点v所获得的回报值,计算公式如下:rvu→d=av→d+γ*q‾v→d-qvu→d-du→v,γ∈(0,1];]]>更新Q表中节点u通过选择下一跳节点v传输至目的节点d对应的Q值:间隔一段时间,重复步骤二至步骤四。进一步,所述数据报文的传输方法具体包括如下步骤:步骤一:任意需要传输数据报文的节点u查询去往目的节点d的Q表,计算去往目的节点的下一跳节点的选择概率;步骤二:依概率选择去往目的节点的下一跳节点v;步骤三:将数据转发至下一跳v;步骤四:收到数据报文的节点v重复步骤一至步骤三,直到数据报
文送达目的节点d。进一步,所述步骤二中,任意节点u选择去往目的节点d的下一跳节点的方法如下:根据Q表中的值设定去往目的节点的下一跳节点的选择概率其中为节点u选择节点v作为下一跳传输至目的节点d的Q值,Nu→d为节点u去往目的节点d的所有满足时延约束指标的可选下一跳节点构成的集合。本专利技术提供的自组织网络基于时延约束的Q学习分组传输方法,主要用于当无线自组织网络中的节点面临多个通往目的节点的下一跳且端到端时延参数时变情况下,如何进行满足时延约束指标的中继路径的自主学习和中继节点的动态选择。本专利技术网络节点自主学习通往目的节点的不同路径的端到端时延参数;网络节点在面临多个通往目的节点且满足时延约束指标的下一跳时,将不同中继节点的端到端传输时延归一化处理后作为每一次传输时的选择概率,动态选择下一跳节点。本专利技术通过节点自身对网络环境的学习,可以不断适应网络环境的变化,做出满足时延约束的传输方法;通过将时延约束与Q学习算法相结合的无线网络分组传输机制提升了无线自组织网络的端到端传输性能。附图说明图1是本专利技术实施例提供的网络拓扑示例示意图。图2是本专利技术实施例提供的Q学习算法框图。图3是本专利技术实施例提供的初始化时各节点Q表值。图4是本专利技术实施例提供的首次Q学习过程演示。图5是本专利技术实施例提供的再次Q学习过程演示。图6是本专利技术实施例提供的Q学习算法收敛之后Q表值。图7是本专利技术实施例提供的数据报文传输框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。网络拓扑示例如图1所示,共9个节点形成自组织网络。考虑源节点为1号节点,目的节点为9号节点,其余节点为中间节点。网络拓扑对应的时延矩阵D为(单位:毫秒):D=010inf4infinfinfinfinf10020inf15infinfinfinfinf200infinf20infinfinf本文档来自技高网
...

【技术保护点】
一种自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述自组织网络基于时延约束的Q学习分组传输方法通过Q学习算法优化网络分组的传输;网络节点通过进行Q学习,在面临多个通往目的节点的下一跳时做出合理选择。

【技术特征摘要】
1.一种自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述自组织网络基于时延约束的Q学习分组传输方法通过Q学习算法优化网络分组的传输;网络节点通过进行Q学习,在面临多个通往目的节点的下一跳时做出合理选择。2.如权利要求1所述的自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述自组织网络基于时延约束的Q学习分组传输方法包括以下步骤:步骤一:对去往目的节点的Q表进行初始化,设置时延奖励值,设置端到端时延约束指标;步骤二:根据Q表选择去往目的节点的下一跳节点,发送前向控制报文;步骤三:收到前向控制报文的下一跳节点向发送节点回复反向控制报文;步骤四:收到前向控制报文的下一跳节点若非目的节点则转发前向控制报文;步骤五:发送节点收到反向控制报文,对Q表进行更新;步骤六:间隔一段时间,重复步骤二至步骤五。3.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述步骤一中,任意节点u的Q表初始化方法如下:Q表至少包括目的节点IP地址、下一跳节点IP地址和Q值字段;其中下一跳节点IP地址字段存放由本节点去往目的节点的下一跳节
\t点的IP地址,Q值字段存放下一跳节点IP地址对应的Q值,初始化为0。4.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述步骤一中,任意节点u设置奖励值au→d的方法如下:当目的节点不是本节点时,au→d=0,当目的节点是本节点时,au→d=Ad,Ad为一正常量。5.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法,其特征在于,所述步骤二中,任意节点u选择去往目的节点d的下一跳节点的方法如下:根据Q表中的值去往目的节点的下一跳节点的选择概率pvu→d=qvu→d/Σv∈Nu→dqvu→d;]]>其中为节点u选择节点v作为下一跳传输至目的节点d的Q值,Nu→d为节点u去往目的节点d的所有满足时延约束指标的可选下一跳节点构成的集合;任意节点u按概率选择下一跳节点,发送前向控制报文,前向控制报文至少包含控制报文类型、发送节点IP地址、下一跳节点IP地址、目的节点IP地址、报文发送时间字段。6.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法,...

【专利技术属性】
技术研发人员:刘军高洋唐伟赵聪刘伟郭伟余敬东
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1