当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于Actor-Critic的传感器网络数据上传方法技术

技术编号:38397382 阅读:9 留言:0更新日期:2023-08-07 11:11
本发明专利技术公开了一种基于Actor

【技术实现步骤摘要】
一种基于Actor

Critic的传感器网络数据上传方法


[0001]本专利技术涉及无线通信
,使用了强化学习的方法来解决传感器数据上传研究问题。

技术介绍

[0002]未来物联网(Internet of Things,IoT)的趋势是实现无处不在的传感和连接系统,从而提供以数据为驱动的决策分析和无需人工干预的自动化,在这样的系统中,数据包延迟不能被视为主要的性能指标,而是目的地端接收到传感器数据的新鲜度,过时的传感器数据对目的地并无太大的意义,甚至可能导致目的地端做出错误的决策。AoI是一个衡量信息新鲜度的指标,定义为自从上一次在目的地收到的更新数据包以后过去的时间,该指标与经典的指标比如吞吐量和延迟有着很大区别,其可以更全面地反映目的地在每一时刻信息的新鲜度。
[0003]目前AoI的研究是一个热门的方向。在现有文献中,接入点和智能设备之间的通信是双向的,接入点有恒定的电源而智能设备没有,接入点同时向智能设备通过块衰落信道传输信息和能量,智能设备同时收到接入点传过来的能量和信息,并将能量储存在能量缓冲器中,给予AoI和传输速率不同的加权系数,并在AoI和传输速率之间进行权衡,然后通过高效算法提出最优功率分配比和最优加权系数,但是文献没有考虑到AoI可能会超过某一阈值的可能。另有文献,提出了AoI的违规概率(Violation Probability),定义为AoI超过某一个给定值的概率,减少违规概率对于保证物联网系统数据的新鲜度具有重要意义,系统由一个传感器节点,一个监视者以及满足先到先服务策略的M/M/1队列构成,每一时刻传感器节点都要向监视者传输数据包,文章推导出了使违规概率最小的数据包产生速率。大多文献都是研究平均AoI的违规概率,也有文献提出了优化峰值AoI的违规概率,研究了在点对点的通信系统中,根据最后到达的时间对数据包的处理采用了后到先服务的抢占式策略,由于可能出现的丢包现象,文章在信道中采用了自动重传协议进行重传,并使用了正交相移键控调制和最大似然信道估计的方法,对于给定的数据包大小、一些物理层参数、发射和接收天线的数量以及导频符号的数量,文章可以确保系统在低于一个峰值AoI违背概率的前提下运行。但是上述文献没有在超过阈值后给予一定的惩罚值。
[0004]由于传输中可能会出现传输失败的情况,有文献考虑了一个发送源测量一个随时间变化的变量并周期地向监测站报告测量信息,可用的通信信道是有限的,发送源在每一次发送测量信息时都需要使用其中的一条信道,监测站不知道这些信道的成功概率是多少,文章将此建模为多臂强盗问题(Multi

arm Bandit Problem),通过仿真展示了AoI

Aware测量比现有的AoI策略要更好,但是文献没有考虑到传输失败的概率在不同信道之间的差异性。
[0005]用强化学习去优化AoI有着很好的效果。有文献考虑了系统是一个服务器服务多个流,使用了策略梯度和深度Q

learning的方法去学习智能体的调度策略,并与基准方法进行对比。但是策略梯度算法通常收敛于全局最优而非局部,而深度Q

learning算法很难
用于高维度或连续动作空间,Actor

Critic算法结合了策略梯度算法和深度Q

learning算法的优点,有文献就使用Actor

Critic算法,文章研究了关注时延的工业物联网设备,新兴网络功能虚拟化使得服务者可以使用虚拟网络功能(Virtual Network Functions,VNFs)传输给定的网络服务,然而,合适的VNF的布局和调度在这些方案中是NP

hard的,通过传统方法找到全局最优解是非常复杂的,深度强化学习则是解决此类问题的可行方法,文章首先使用了低复杂度的单智能体强化学习Actor

Critic算法来联合优化VNF成本和AoI,为了解决单智能体学习的容量限制,文章使用智能体可以相互合作的多智能体强化学习算法,并证明了单智能体强化学习算法在平均网络成本和AoI的优化方面比贪婪算法表现更好,而且多智能体强化学习算法通过分离智能体的任务来减小平均开销,但是由于需要智能体之间的相互合作,所以多智能体强化学习算法需要更多的迭代。有的文献将强化学习算法和经典算法进行对比以证明其优越性,有文献提出了多个传感器节点和一个远程控制中心通信,文章想要最优化所有传感器节点的AoI和实现超可靠低延迟通信(Ultra Reliable Low Latency Communication,URLLC),并对比了深度强化学习算法和两种经典算法的差异。但是上述文献都没有考虑到能量问题,一般而言,数据的传输都需要消耗能量,而且对于多对一系统而言,不同设备传输所消耗的能量也存在差异。
[0006]总结来说,上述文献提到的模型还存在着以下问题:
[0007](1)在考虑优化AoI的时候,没有考虑超过某一阈值的情况,或者在考虑到阈值后没有考虑在超过这一阈值以后应该给予多少惩罚值,而当AoI超过某一个值以后,就意味着传输策略非常糟糕,需要尽量避免;
[0008](2)在考虑不同信道的数据传输时,考虑到了传输失败的问题,但是忽略了传输失败的概率在不同信道之间的差异性;
[0009](3)仅仅只是考虑优化AoI,没有考虑到每次传输的能量消耗问题,实际上,传感器节点都有固定的能量,每一次传输都需要消耗一定的能量,在能量消耗完以后,就需要更换传感器节点,这需要一定的成本;
[0010](4)不同传感器节点的实际情况是不同的,每次传输消耗的能量以及产生的数据包大小也就有所不同,在很多模型设计时都没有考虑到这一情况。

技术实现思路

[0011]技术问题:本专利技术所要解决的技术问题在于,提出了一种基于强化学习的传感器数据上传研究方法。使用了Age of Information(AoI)和能量消耗作为衡量指标,每一个传感器节点都会监测相应物理过程的信息并将其传输给中央控制器,物理过程可以看作一系列的任务,而由于有限的无线资源,监测每一个任务后只有一个传感器节点可以传输,所以使用了强化学习Actor

Critic算法用于决策哪些传感器节点可以传输,Actor

Critic算法可以使得调度节点每一次都会选择需要传输的节点进行传输,降低了计算时间复杂度,提高了传感器节点传输的效率。
[0012]技术方案:本专利技术采用的技术方案如下:
[0013](1)首先建立传感器节点无线传输问题所对应的数学模型。
[0014](2)根据传感器节点传输数学模型搭建对应的仿真环境,以及初始化该环境中用的各项参数。包括传感器节点k的AoI,传感器节点k最多能储存的能量,传感器节点k传输所
消耗的能量,传感器节点k传输的数据包大小L
k
,传感器节点k传送数据包的速率λ(i)。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Actor

Critic的传感器网络数据上传方法,所述传感器网络包括K个传感器节点和一个调度节点,传感器节点监测任务,调度节点每次选取一个传感器节点进行传输并将获得的数据包传输给中央控制器,其特征在于,包括如下步骤:建立传感器节点无线传输问题所对应的传感器节点传输数学模型;所述传感器节点传输数学模型的优化目标是使得以下几项之和最小:调度节点侧的AoI,超过AoI阈值后给予的惩罚值,传感器节点传输的能量消耗和传输节点更换的成本;根据传感器节点传输数学模型搭建对应的仿真环境,以及初始化仿真环境中相关的各项参数,包括传感器节点k的AoI,传感器节点k最多能储存的能量,传感器节点k传输第i个任务所消耗的能量e
k
(i),传感器节点k传输的数据包大小L
k
,传感器节点k传送数据包的速率λ(i);k=1,

,K;将调度节点的传感器节点调度问题转化为一个马尔可夫决策过程(S,A,R),其中S表示状态空间,A表示动作空间,R表示奖励函数;采用强化学习Actor

Critic算法训练智能体,用于决策满足各项约束并且使得AoI和能量消耗最少的数据上传方案。2.如权利要求1所述的基于Actor

Critic的传感器网络数据上传方法,其特征在于,在调度节点侧,第k个传感器节点在调度节点侧的AoI表示为:被选中进行传输的传感器节点k在传输第i+1个任务前的电量为:则优化目标为:其中,r
k
(i)代表节点k成功传输数据包所做出的尝试次数;在监测第i个任务时,用I
k
(i)=1表示传感器节点k被选择去传输,而I
k
(i)=0表示传感器节点k没有被选择去传输;L
k
代表节点k传输的数据包大小;为传感器节点k在传输第i个任务前的电量;B为传感器节点的电池电量;e
k
(i)为传感器节点k传输第i个任务需要消耗的能量;u≠k;c为每次更换传感器节点所需要的成本;β
k
为传感器节点k的AoI上限;δ
k
为传感器节点k的AoI超过上限时,给予的惩罚。3.如权利要求1所述的基于Ac...

【专利技术属性】
技术研发人员:刘楠许宪哲潘志文尤肖虎
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1