一种基于稀疏强化学习的传感器网络优化方法技术

技术编号:9879301 阅读:84 留言:0更新日期:2014-04-04 18:25
本发明专利技术提出一种基于新的稀疏强化学习的传感器网络优化方法,包括:步骤1,将传感器网络中的传感器划分为多个传感器基团;步骤2,将所述传感器网络中表示所有传感器控制策略的全局Q值函数分解为表示各个传感器基团中传感器控制策略的Q值函数之和,并获取与分解后的Q值函数对应的因子图;步骤3,计算当前状态下所有传感器的贪婪联合动作;步骤4,各个传感器执行所述贪婪联合动作或随机动作,并更新每个传感器基团的Q值函数;步骤5,重复步骤3~4,直至传感器基团的Q值函数收敛;步骤6,根据学习得到的传感器基团的Q值函数和当前目标所处的状态,使用一般最大和算法计算获得所有传感器的贪婪联合动作,供每个传感器执行。

【技术实现步骤摘要】
一种基于稀疏强化学习的传感器网络优化方法
本专利技术涉及智能控制
,尤其涉及一种基于新的稀疏强化学习的传感器网络优化方法。
技术介绍
传感器网络问题的设计目标是为了优化传感器之间的协调合作,尽快捕获指定区域内的所有目标,并且为了减少能量消耗,还要尽可能减少无效的探测动作。在传感器网络问题中,传感器并不是孤立存在的,而是与其他传感器进行通讯和相互作用,共同地作用于区域内的目标。在现实世界中,每个传感器只能感知到自己周围区域的状态,以及邻居传感器的行为。一个很重要的问题就是如何让多个传感器在这种条件下进行合作。在现有技术中,稀疏强化学习方法是一种适合求解此类问题的强化学习方法。强化学习是在先验知识很少的情形下,通过试错法进行学习,其策略可用Q值(状态-动作值)函数表示,Q值函数将每一个状态-动作对映射为一个值,表示从长远来看这个状态-动作对的好坏。较之于其他算法,稀疏强化学习方法的优点在于利用了传感器之间的关系对全局Q值函数进行分解。而且,它直接对贪婪联合动作而不是局部贪婪动作进行评估。在求解贪婪联合动作时,它使用了最大和方法,以一种并行、分布的方式进行求解。然而,稀疏强化学习方法本文档来自技高网...
一种基于稀疏强化学习的传感器网络优化方法

【技术保护点】
一种基于新的稀疏强化学习的传感器网络优化控制方法,包括以下步骤:步骤1,将传感器网络中的传感器划分为多个传感器基团,每个传感器基团中的传感器之间直接进行协调合作,以探测目标;步骤2,将所述传感器网络中表示所有传感器控制策略的全局Q值函数分解为表示各个传感器基团中传感器控制策略的Q值函数之和,并获取与分解后的Q值函数对应的因子图;步骤3,利用所述因子图上的一般最大和算法,计算当前状态下所有传感器的贪婪联合动作;步骤4,各个传感器执行所述贪婪联合动作或随机动作,使用目标状态、各个传感器执行的所述贪婪联合动作或随机动作和传感器基团获得的回报更新每个传感器基团的Q值函数;步骤5,重复步骤3~4,直至传...

【技术特征摘要】
1.一种基于新的稀疏强化学习的传感器网络优化控制方法,包括以下步骤:步骤1,将传感器网络中的传感器划分为多个传感器基团,每个传感器基团中的传感器之间直接进行协调合作,以探测目标;步骤2,将所述传感器网络中表示所有传感器控制策略的全局Q值函数分解为表示各个传感器基团中传感器控制策略的Q值函数之和,并获取与分解后的Q值函数对应的因子图;步骤3,利用所述因子图上的一般最大和算法,计算当前状态下所有传感器的贪婪联合动作;步骤4,各个传感器执行所述贪婪联合动作或随机动作,使用目标状态、各个传感器执行的所述贪婪联合动作或随机动作和传感器基团获得的回报更新每个传感器基团的Q值函数;步骤5,重复步骤3~4,直至传感器基团的Q值函数收敛;步骤6,根据学习得到的传感器基团的Q值函数和当前目标所处的状态,使用一般最大和算法计算获得所有传感器的贪婪联合动作,供每个传感器执行;所述Q值函数用于表示传感器在目标状态下执行相应动作的优劣程度。2.如权利要求1所述的方法,其中,所述因子图中传感器基团表示因子结点,传感器基团中的传感器表示变量结点,所述一般最大和方法是指所述因子结点和变量结点同时向同一传感器基团中的相邻结点发送针对传感器动作的消息,所述贪婪联合动作即为各个传感器对应的变量结点接收到的最大消息值对应的传感器动作;所述因子结点的相邻结点包括其对应的传感器基团中的传感器对应的变量结点,所述变量结点的相邻结点包括其所在传感器基团中的因子结点。3.如权利要求2所述的方法,其中,所述针对传感器动作消息的消息值具体为:变量结点接收到的消息值为上一次迭代时相邻因子结点向其发送的消息值之和;所述相邻因子结点向变量结点发送的消息值如下计算:其中,(al)是针对传感器动作al从因子结点node(Qp)发送到变量结点node(al)的消息值,ap表示Qp的所有参数,即组成传感器基团p的所有传感器的联合动作,ap\al表示Qp中除去al之外的参数,即除了传感器l之外的组成传感器基团p的其他传感器的联合动作,Qp(a...

【专利技术属性】
技术研发人员:赵冬斌张震刘德荣
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1