一种自组织网络基于时延约束的Q学习分组传输方法技术

技术编号：13589289 阅读：93 留言：0更新日期：2016-08-25 16:06

本发明专利技术公开了一种自组织网络基于时延约束的Q学习分组传输方法，所述自组织网络基于时延约束的Q学习分组传输方法旨在解决当无线自组织网络中的节点面临多个通往目的节点的下一跳且端到端时延参数时变情况下，满足时延约束指标的中继路径的自主学习和中继节点的动态选择问题。网络节点自主学习通往目的节点的不同路径的端到端时延参数；网络节点在面临多个通往目的节点且满足时延约束指标的下一跳时，将不同下一跳节点的端到端传输时延归一化处理后作为每一次传输时的选择概率，动态选择下一跳节点进行传输，从而降低网络的端到端传输时延。本发明专利技术采用的将时延约束与Q学习相结合的分组传输方法提升了无线自组织网络的传输性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于通信
，尤其涉及一种自组织网络基于时延约束的Q学习分组传输方法。
技术介绍
Q学习是一种模型无关的强化学习算法，Q学习要解决的是这样的问题：一个能感知环境的自治代理如何通过学习选择能达到其目标的最优动作。主要应用于学习控制机器人的移动，在工厂中学习最优操作工序以及学习棋类对弈等。当代理在其环境中做出一个动作时，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。例如，在训练代理进行棋类对弈时，施教者可在游戏胜利时给出正回报，而在游戏失败时给出负回报，其他时候为零回报。代理的任务就是从这个非直接的，有延迟的回报中学习，以便后续的动作产生最大的累积效应。Q学习在人工智能领域已得到大范围应用并且性能优良。在无线自组织网络中，一个节点到目的节点往往具有多个下一跳节点，因此如何选择通往目的节点的下一跳节点来降低端到端的时延、提升网络传输性能就变得尤为重要。
技术实现思路
本专利技术的目的在于提供一种自组织网络基于时延约束的Q学习分组传输方法，旨在解决当无线自组织网络中的节点面临多个通往目的节点的下一跳且端到端时延参数时变情况下，满足时延约束指标的中继路径的自主学习和中继节点的动态选择问题。本专利技术是这样实现的，一种自组织网络基于时延约束的Q学习分组传输方法，所述自组织网络基于时延约束的Q学习分组传输方法通过网络节点自主学习通往目的节点的不同路径的端到端时延参数；网络节点在面临多个通往目的节点且满足时延约束指标的下一跳时，将不同中继节点的端到端传输时延归一化处理后作为每一次传输时的选择概率，动态选择下一跳节点，从而提升网络端到端传输性能。进一步，...

【技术保护点】
一种自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述自组织网络基于时延约束的Q学习分组传输方法通过Q学习算法优化网络分组的传输；网络节点通过进行Q学习，在面临多个通往目的节点的下一跳时做出合理选择。

【技术特征摘要】
1.一种自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述自组织网络基于时延约束的Q学习分组传输方法通过Q学习算法优化网络分组的传输；网络节点通过进行Q学习，在面临多个通往目的节点的下一跳时做出合理选择。2.如权利要求1所述的自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述自组织网络基于时延约束的Q学习分组传输方法包括以下步骤：步骤一：对去往目的节点的Q表进行初始化，设置时延奖励值，设置端到端时延约束指标；步骤二：根据Q表选择去往目的节点的下一跳节点，发送前向控制报文；步骤三：收到前向控制报文的下一跳节点向发送节点回复反向控制报文；步骤四：收到前向控制报文的下一跳节点若非目的节点则转发前向控制报文；步骤五：发送节点收到反向控制报文，对Q表进行更新；步骤六：间隔一段时间，重复步骤二至步骤五。3.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述步骤一中，任意节点u的Q表初始化方法如下：Q表至少包括目的节点IP地址、下一跳节点IP地址和Q值字段；其中下一跳节点IP地址字段存放由本节点去往目的节点的下一跳节
\t点的IP地址，Q值字段存放下一跳节点IP地址对应的Q值，初始化为0。4.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述步骤一中，任意节点u设置奖励值au→d的方法如下：当目的节点不是本节点时，au→d＝0，当目的节点是本节点时，au→d＝Ad，Ad为一正常量。5.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法，其特征在于，所述步骤二中，任意节点u选择去往目的节点d的下一跳节点的方法如下：根据Q表中的值去往目的节点的下一跳节点的选择概率pvu→d=qvu→d/Σv∈Nu→dqvu→d;]]>其中为节点u选择节点v作为下一跳传输至目的节点d的Q值，Nu→d为节点u去往目的节点d的所有满足时延约束指标的可选下一跳节点构成的集合；任意节点u按概率选择下一跳节点，发送前向控制报文，前向控制报文至少包含控制报文类型、发送节点IP地址、下一跳节点IP地址、目的节点IP地址、报文发送时间字段。6.如权利要求2所述的自组织网络基于时延约束的Q学习分组传输方法，...

【专利技术属性】
技术研发人员：刘军，高洋，唐伟，赵聪，刘伟，郭伟，余敬东，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人