当前位置: 首页 > 专利查询>宁夏大学专利>正文

基于模糊Q-learning的能量收集无线传感器占空比自适应调节方法技术

技术编号:35006702 阅读:21 留言:0更新日期:2022-09-21 14:57
本发明专利技术提供基于模糊Q

【技术实现步骤摘要】
基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法


[0001]本专利技术涉及无线传感器
,尤其涉及一种基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法。

技术介绍

[0002]无线传感器网络是由数量众多的传感器节点通过无线通信的方式自组织连接构成,这些具有感知能力的无线传感器节点作为无线传感器网络中的通信主体凭借其低成本、低功耗、多功能等特性,在环境监测、医疗健康、智能家居、工业控制、军事国防等领域发挥着巨大的作用。无线传感器一般采用电池供电,如果节点部署在恶劣的环境中,为每个设备的电池充电可能非常昂贵或不太可能实现,因此,需要最大限度地延长无线传感器网络的寿命,从周围环境(太阳、风、震动等)收集能量转化为电能实现无线传感器节点的实现持续供电方式更为可行。
[0003]通过能量收集无线传感器,可以持续收集来自环境的能量进行存储供能,然而外界能源随着时间交替呈现随机性或周期性的动态变化,导致节点能量无法时刻保持稳定状态,若能量收集速率过快,无线传感器节点实际消耗能量远低于收集能量,会造成收集和储能设备过快折损,若能量收集速率过低,无线传感器节点可能因为能量耗尽造成节点死亡,从而影响到整个无线传感器网络的数据安全。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法,通过调节占空比适应能量收集速率,解决由于能量收集速率过高导致收集和储能设备过快折损、以及能量收集速率过低导致无线传感器节点能量耗尽的问题。
[0005]本专利技术实施例解决其技术问题所采用的技术方案是:
[0006]一种基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法,包括:
[0007]步骤S1,建立无线传感器能量管理模型<S,A,P
sa
,R>,其中,S为状态空间集合,A为节点睡眠动作空间集合,P
sa
为所述S中各状态s
i
经过动作a
j
转移到下一状态s

i
的概率分布集,R为奖励函数,s
i
∈S,s

i
∈S,i∈[1,I],a
j
∈A,j∈[1,M];
[0008]步骤S2,建立Q表,所述Q表中的值记为q(s
ki
,a
j
),并初始化所述Q表,其中,规定Q

learning学习时长为T
total
,单回合时长为T
episode
,更新间隔时长为

t,s
ki
为所述s
i
输入模糊推理系统后采用模糊规则k;
[0009]步骤S3,获取节点在t时刻的状态空间S
t
,S
t
=[E
h
(t),S
v
(t)],S
t
∈S,S
t
=s
i
,其中,所述E
h
(t)表示t时刻所述节点的能量收集单元收集的能量,S
v
(t)表示t时刻无线传感器的超级电容电压;
[0010]步骤S4,利用所述模糊推理系统计算所述S
t
触发所述模糊规则k的触发强度ω
ki
,k∈[1,N];
[0011]步骤S5,通过ε

greedy策略根据,从所述A中选择所述模糊规则k对应激活的动作a
j

[0012]步骤S6,基于所述奖励函数R,计算出所述S
t
执行所述动作a
j
的环境奖励R(s
i
,a
j
),并进一步根据所述环境奖励R(s
i
,a
j
)更新所述Q表中的所述q(s
ki
,a
j
);
[0013]步骤S7,基于所述a
j
和所述触发强度ω
ki
计算出所述节点在t时刻的占空比更替值d
c
(t);
[0014]步骤S8,修改所述节点的占空比为所述d
c
(t)并进入t+1时刻,得出新的状态空间S
t+1
,S
t+1
=[E
h
(t+1),S
v
(t+1)],S
t+1
∈S,S
t+1
=s

i

[0015]步骤S9,返回执行步骤S4,根据所述新的状态空间S
t+1
作为输入执行占空比调节操作,通过重复执行步骤S4

S8,直至学习时间到达所述学习时长T
total

[0016]较优地,所述P
sa
中的概率要素为:
[0017][0018]较优地,所述步骤S4利用所述模糊推理系统计算所述S
t
触发所述模糊规则k的触发强度ω
ki
包括:
[0019]步骤S41,制定N个所述模糊规则和隶属度函数,定义所述状态空间S
t
中的所述E
h
(t)为三角形隶属函数,定义所述状态空间S
t
中的所述S
v
(t)为梯形隶属函数,所述模糊规则k∈[1,N];
[0020]步骤S42,在所述S中找到与所述状态空间S
t
相同的所述s
i
,s
i
=[E
h
(s
i
),S
v
(s
i
)],将所述s
i
作为输入变量输入所述模糊推理系统,计算所述模糊规则k的触发强度ω
ki

[0021][0022]其中,代表所述模糊规则k下输入变量所述s
i
中所述E
h
(s
i
)通过隶属度函数计算得到的隶属度值,代表所述模糊规则k下输入变量所述s
i
中所述S
v
(s
i
)通过隶属度函数计算得到的隶属度值。
[0023]较优地,所述步骤S6基于所述奖励函数R,计算出所述S
t
执行所述动作a
j
的环境奖励R(s
i
,a
j
),并进一步根据所述环境奖励R(s
i
,a
j
)更新所述Q表中的所述q(s
ki
,a
j
)包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法,其特征在于,包括:步骤S1,建立无线传感器能量管理模型<S,A,P
sa
,R>,其中,S为状态空间集合,A为节点睡眠动作空间集合,P
sa
为所述S中各状态s
i
经过动作a
j
转移到下一状态s

i
的概率分布集,R为奖励函数,s
i
∈S,s

i
∈S,i∈[1,I],a
j
∈A,j∈[1,M];步骤S2,建立Q表,所述Q表中的值记为q(s
ki
,a
j
),并初始化所述Q表,其中,规定Q

learning学习时长为T
total
,单回合时长为T
episode
,更新间隔时长为

t,s
ki
为所述s
i
输入模糊推理系统后采用模糊规则k;步骤S3,获取节点在t时刻的状态空间S
t
,S
t
=[E
h
(t),S
v
(t)],S
t
∈S,S
t
=s
i
,其中,所述E
h
(t)表示t时刻所述节点的能量收集单元收集的能量,S
v
(t)表示t时刻无线传感器的超级电容电压;步骤S4,利用所述模糊推理系统计算所述S
t
触发所述模糊规则k的触发强度ω
ki
,k∈[1,N];步骤S5,通过ε

greedy策略根据,从所述A中选择所述模糊规则k对应激活的动作a
j
;步骤S6,基于所述奖励函数R,计算出所述S
t
执行所述动作a
j
的环境奖励R(s
i
,a
j
),并进一步根据所述环境奖励R(s
i
,a
j
)更新所述Q表中的所述q(s
ki
,a
j
);步骤S7,基于所述a
j
和所述触发强度ω
ki
计算出所述节点在t时刻的占空比更替值d
c
(t);步骤S8,修改所述节点的占空比为所述d
c
(t)并进入t+1时刻,得出新的状态空间S
t+1
,S
t+1
=[E
h
(t+1),S
v
(t+1)],S
t+1
∈S,S
t+1
=s

i
;步骤S9,返回执行步骤S4,根据所述新的状态空间S
t+1
作为输入执行占空比调节操作,通过重复执行步骤S4

S8,直至学习时间到达所述学习时长T
total
。2.如权利要求1所述的基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法,其特征在于,所述P
sa
中的概率要素为:3.如权利要求2所述的基于模糊Q

learning的能量收集无线传感器占空比自适应调节方法,其特征在于,所述步骤S4利用所述模糊推理系统计算所述S
t
触发所述模糊规则k的触发强度ω
ki
包括:步骤S41,制定N个所述模糊规则和隶属度函数,定义所述状态空间S
t
中的所述E
h
(t)为三角形隶属函数,定义所述状态空间S
t
中的所述S
v
(t)为梯形隶属函数,所述模糊规则k∈[1,N];步骤S42,在所述S中找到与所述状态空间S
t
相同的所述s
i
,s
i
=[E
h
(s
i
),S
v
(s
i
)],将所述s
i
作为输入变量输入所述模糊推理系统,计算所述模糊规则k的触发强度ω
ki
:其中,代表所述模糊规则k下输入变量所述s
...

【专利技术属性】
技术研发人员:葛永琪魏佳圆袁振博刘瑞
申请(专利权)人:宁夏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1