基于改进Q学习算法的物联网错误传感器节点定位方法技术

技术编号:8192934 阅读:441 留言:0更新日期:2013-01-10 03:16
本发明专利技术公开了一种基于改进Q学习算法的物联网错误传感器节点定位方法,其是通过对传统Q学习方法进行改进,使计算得到的Q值对传感器节点的剩余能量,路由选择,传输跳数等特征信息自适应变化,通过最大Q值建立路由路径,同时后台服务器计算出网络拓扑结构,当节点受到攻击或产生错误数据时,通过对比下一周期该节点的Q值,设定误差范围,超出范围时我们判定该节点为错误节点,并对其进行定位。本发明专利技术不需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,也具有较高的鲁棒性;其具有智能化、能耗少及自适应程度高等优点,不仅可用于传感器节点的路由、定位以及能耗性能评估,还可以对未知错误节点进行准确定位,具有广泛的应用价值。

【技术实现步骤摘要】

【技术保护点】
基于改进Q学习算法的物联网错误传感器节点定位方法,其特征在于,其步骤包括:(a)、将物联网传感器节点抽象成具有一定属性的自治Agent,包括汇聚节点和源节点;使强化学习与Agent概念相结合;(b)、源节点与汇聚节点通过有线或者无线的方式与具有较好计算能力的后台服务器相连,汇聚节点以一定的周期向邻居节点广播学习评估消息,启动路径评估过程;学习评估消息中包含Agent的回报值、Q评估值及能量信息;初始化Q学习算法的参数包括学习速率、折扣因子、Q值;(c)、将目标任务进行划分为多个子任务,即能耗最少,路径最优,跳数最少;不同的子任务得到环境不同的奖赏值,通过加权求和定义奖赏函数R′,即环境的回报值;(d)、各个Agent通过感知模块获得当前状态s的能量信息,并根据动作选择策略选择当前状态s下的最优动作;动作选择策略采用Boltzmann动作选择策略,通过策略执行动作到达新的状态s',同时从环境得到环境的回报值R′;Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值;(e)、根据改进Q学习算法中的Q值计算公式进行Q值的计算与更新;(f)、汇集节点不断向邻居节点广播学习评估消息,邻居节点根据动作选择策略向下一个节点广播学习评估消息直到抵达源节点,一次学习过程结束,更新Q值后进入下一个学习过程,直到Q值收敛,得到最优决策;从各个汇聚节点到源节点的各传感器节点的Q值就逐步的迭代出来,记录最大Q值和最大Q值所对应的最佳动作;Q值随节点剩余能量,路由选择,传输跳数而自适应变化,从而在后台服务器中计算出各传感器节点相对源节点的网络拓扑结构;(g)、当下一周期计算得到的Q值与当前的Q值出现较大偏差时,对该传感器节点的路由选择,能量消耗等特征信息进行考察,根据Q值和网络拓扑结构对错误传感器节点进行定位;同时,在强化学习过程中,Agent在一定时间?内没有收到邻居节点的环境反馈值时,判定该邻居节点为错误节点。...

【技术特征摘要】

【专利技术属性】
技术研发人员:范新南卞辉史鹏飞张继
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1