【技术实现步骤摘要】
基于自适应边界的分布式强化学习稳定拓扑生成方法
本专利技术属于通信
,涉及移动自组织网络的稳定拓扑生成,具体是一种移动自组织网络的基于自适应边界的分布式强化学习稳定拓扑生成方法,用于移动自组织分布式网络。
技术介绍
移动自组织网络(mobileAdhocnetworks,MANET)作为一种特殊的无线移动网络,由于其无需架设网络设施、可快速展开、网络节点可随意移动并且能以任意方式相互通信等特点,被广泛应用于民用和现代军事通信中。移动自组织网络是一种多交叉学科结合的综合技术,如何构建安全、稳定、可靠的移动自组织网络是当前通信领域待解决的方面。移动节点对移动自组织网络构建稳定拓扑结构的影响,使节点之间构建稳定的拓扑结构进行信息传输成为MANET要解决的重要问题。目前,基于深度学习和机器学习方法对节点的运动轨迹、位置或链路质量进行预测来选择最可靠路径进行信息传输,使得节点传输过程中链路联接保持较长时间。这些方法在判定链路稳定性方面与传统的方法判定链路稳定性相比虽然效果较好,但都存在一定的局限性。现有的方法分为以下几个 ...
【技术保护点】
1.一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:包括有以下步骤:/n步骤1动态拓扑构建:在一块区域内布置N个节点,各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动,形成MANET的动态拓扑结构,定义每个节点都存在一个自适应强化学习的区间[a,b];/n步骤2划分自适应强化学习区间及Q值表初始化:在构建的MANET中,各节点初始化,设各节点的初始归一化发射功率为0dBm,节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d
【技术特征摘要】
1.一种基于自适应边界的分布式强化学习稳定拓扑生成方法,其特征在于:包括有以下步骤:
步骤1动态拓扑构建:在一块区域内布置N个节点,各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动,形成MANET的动态拓扑结构,定义每个节点都存在一个自适应强化学习的区间[a,b];
步骤2划分自适应强化学习区间及Q值表初始化:在构建的MANET中,各节点初始化,设各节点的初始归一化发射功率为0dBm,节点与其邻居节点间的稳定拓扑联接临界归一化强度值为dwindBm,初始设置各节点学习期间[a,b]中上界a与下界b的值都等于dwindBm;节点接收到邻居节点的接收信号强度值RSSI,按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理;区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间,简称为自适应区间,在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测;区间[0,a)、(b,-∞)内进行状态的直接决策,简称直接决策区间,即节点直接判断其与邻居节点的拓扑联接稳定性;随着Q-learning方法的执行,自适应区间[a,b]的边界值会自适应更新,进行自适应区间扩展;网络中每个节点会初始化建立一个Q值表,表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值;设置状态集S={s1,s2},状态s1为当前节点与某邻居节点处于稳定联接状态,状态s2为当前节点与某邻居节点处于非稳定联接状态;设置动作集A={a1,a2},动作a1为预判稳定状态,动作a2为预判非稳定状态;节点根据与各个邻居节点所处的联接状态si以及所采用策略π(si,aj)选择动作aj,i状态序号取值为1、2,j为动作序号1、2;针对节点与邻居节点在t时刻对应元素Q值表中的Qt(si,aj)进行强化学习更新,得到下一时刻Q值表中Qt+1(si,aj),其中si∈S,aj∈A;在自适应区间内,节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习;
步骤3当前节点根据RSSI进行分区间处理:当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理,当RSSI值落入区间[a,b]则执行步骤4,进行自适应强化学习及状态预测;否则,执行步骤5,进行直接决策区间状态判断;
步骤4自适应区间内强化学习与联接状态稳定性判断:在MANET中,节点接收到某邻居节点的RSSI值处于区间[a,b]内时,该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测,并利用自适应奖励函数对Q值表进行更新,更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择;执行步骤7;
步骤5直接决策区间状态判断:节点接收到邻居节点的RSSI值处于区间[0,a)内,直接判决该邻居节点的联接状态为稳定联接状态s1,之后执行步骤6;节点接收到邻居节点的RSSI值处于区间(b,-∞)内,直接判决该邻居节点的联接状态为非稳定联接状态s2,之后执行步骤6;
步骤6对自适应区间边界进行自适应更新:直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b,将稳定联接临界归一化强度值dwin作为判定阈值,如果当前时刻节点接收到某邻居节点的RSSI,邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s1;邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s2;当RSSI值处于直接决策区间时,根据如下状态判断公式进行判断:
式中:s为当前节点与邻居节点的联接变量状态;将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测,具体表示为假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′;根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新;
步骤7生成分布式自适应的稳定联接拓扑:针对不同时刻,各个节点重复执行步骤3~步骤6,遍历所有节点,根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新,得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系,实现分布式自适应的稳定联接拓扑。
2.如权利要求1所述的一种基于自适应边界的...
【专利技术属性】
技术研发人员:黄庆东,石斌宇,杜昭强,
申请(专利权)人:西安邮电大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。