Ad Hoc网络中基于Q学习和信任模型的路由方法技术

技术编号：20729806 阅读：25 留言：0更新日期：2019-03-30 19:24

本发明专利技术公开了一种Ad Hoc网络中基于Q学习和信任模型的路由方法，主要解决了Ad Hoc网路中安全路由寻找的问题。本发明专利技术实现步骤是：(1)生成Q值表；(2)计算每个节点相邻节点的总数；(3)节点评估与其相邻的每个节点的信任值；(4)分配信任奖励；(5)获取即时奖励；(6)获取聚合奖励；(7)更新Ad Hoc网络节点的Q值表中的Q值；(8)判断路由请求包中的当前节点是否为目的节点，若是，则执行步骤(9)，否则，执行步骤(6)；(9)建立正向路由信息；(10)发送数据包。发明专利技术实现了信任模型、Q学习算法和路由技术的结合，能够根据Ad Hoc网络环境动态寻找全局最优路由，有效提高了网络的安全性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
AdHoc网络中基于Q学习和信任模型的路由方法
本专利技术属于通信
，更进一步涉及网络通信
中的一种AdHoc网络中基于Q学习和信任模型的路由方法。本专利技术在信任模型基础上，应用Q学习对AdHoc网络环境中的节点作信任评估，寻找可信度最高的路由，可用于在AdHoc网络中寻找安全路由路径。
技术介绍
移动AdHoc网络是由若干个相对独立的移动节点集聚在一起组成的具有自组织能力和快速部署能力的嵌入式无线网络，该网络得以高效正常运转依赖于网内所有节点具有高可信性且相互间以诚信的协作方式运行。山东中弘信息科技有限公司在其申请的专利文献“一种基于包转发率的无线自组网可信路由协议”(申请号：201410579270.2，公开号：CN104301222A)中公开了一种基于包转发率的无线自组网可信路由方法。该方法采用包转发率模型计算每个节点的信任值，之后源节点发起一个路由发现过程，通过路由请求和路由应答实现，路由请求包从源节点开始寻找一跳范围内信任值最大的节点，经中间结点至目标节点，该过程每一跳均是寻找下一跳信任值最大的节点进行转发。路由请求包到达目标节点后，目标节...

【技术保护点】
1.一种Ad Hoc网络中基于Q学习和信任模型的路由方法，其特征在于，在Ad Hoc网络中采用信任模型评估Ad Hoc网络中的每个节点的可信度并计算聚合奖励，量化网络资源并计算即时奖励，采用Q学习算法寻找全局安全性最高资源最好的路由路径，该方法的步骤包括如下：(1)生成Q值表：(1a)将Ad Hoc网络中每个节点对应的路由表扩展为Q值表，在该表中增加每个节点对应的Q值、信任值、学习率字段；(1b)将Q值表中的Q值初始设置为0，信任值T初始设置为1，学习率α初始设置为0.8，路由初始设置为空；(2)计算每个节点相邻节点的总数：Ad Hoc网络中每个节点广播HELLO数据包，与广播节点相邻的一跳邻...

【技术特征摘要】
1.一种AdHoc网络中基于Q学习和信任模型的路由方法，其特征在于，在AdHoc网络中采用信任模型评估AdHoc网络中的每个节点的可信度并计算聚合奖励，量化网络资源并计算即时奖励，采用Q学习算法寻找全局安全性最高资源最好的路由路径，该方法的步骤包括如下：(1)生成Q值表：(1a)将AdHoc网络中每个节点对应的路由表扩展为Q值表，在该表中增加每个节点对应的Q值、信任值、学习率字段；(1b)将Q值表中的Q值初始设置为0，信任值T初始设置为1，学习率α初始设置为0.8，路由初始设置为空；(2)计算每个节点相邻节点的总数：AdHoc网络中每个节点广播HELLO数据包，与广播节点相邻的一跳邻居节点响应HELLO数据包，累加一跳邻居的个数并记录总数；(3)节点评估与其相邻的每个节点的信任值：(3a)计算每个节点与其相邻的每个节点在预设交互次数后的控制分组数：(3b)计算每个节点与其相邻的每个节点在预设交互次数后的数据分组转发率：(3c)用每个控制分组数加数据分组转发率之和再除以2，得到该节点与其相邻的每个节点的信任值；(4)分配信任奖励：(4a)找出每个节点与其相邻节点信任值大于第一个阈值的节点，将该节点的相邻节点分配信任奖励1后，存入该节点的Q值表中；(4b)找出每个节点与其相邻节点信任值小于第一个阈值且大于第二个阈值的节点，将该节点的相邻节点分配信任奖励0.5后，存入该节点的Q值表中；(4c)找出每个节点与其相邻节点信任值小于第二个阈值的节点，将该节点的相邻节点分配信任奖励0后，存入该节点的Q值表中；(5)获取即时奖励：用每个节点的相邻节点的电池电量值、内存值、带宽值求和后再除以3，得到该节点与其相邻的每个节点的即时奖励；(6)获取聚合奖励：用每个即时奖励与0.7倍信任奖励之和再除以2，得到该节点与其相邻的每个节点的聚合奖励；(7)按照下式，更新AdHoc网络节点的Q值表中的Q值：其中，Q(s,a)表示Adhoc网络第s个节点选择动作a的Q值，α表示取值为0.8的学习率，R表示将聚合奖励赋值给立即奖励，γ表示取值为0.8的折扣因子；(8)判断AdHoc网络的路由请求包中的当前节点是否为目的节点，若是，则执行步骤(9)，否则，执行步骤(6)；(9)建立正向路由信息：(9a)由目的节点开始，向其邻居节点发...

【专利技术属性】
技术研发人员：董庆宽，胡杰，樊凯，李伟，董乙平，周翔宇，王俊梅，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人