【技术实现步骤摘要】
一种深度强化学习的机会路由候选集节点排序方法
[0001]本专利技术属于水下声学传感器网络
,具体涉及一种深度强化学习的机会路由候选集节点排序方法。
技术介绍
[0002]海洋面积占地球表面积70%以上,其中蕴含着丰富的资源,随着陆上资源的不断减少,各国对海洋权益的重视日益加深,人们迫切需要新的技术去探索广阔的水下未知世界。由于无线电信号在水中衰减迅速,传输距离短,而声信号可以在水下进行远距离传输,所以水下声学传感器网络受到越来越多的关注。在水下使用声信号进行传输会带来高时延、高误码率、低带宽、低传输速率和多径效应等挑战,这些挑战使得现有陆上的路由协议无法适用于水下环境,为水下声学传感器网络路由协议的设计带来了新的机遇和挑战。
[0003]在水下路由协议中,机会路由协议利用声信号的广播特性,提高了网络的可靠性和吞吐量,所以被广泛应用。在机会路由协议中,每次转发通常有多个节点接收到数据包,机会路由候选集排序算法负责计算这些节点的转发优先级,然后这些节点根据自己的优先级进行机会转发,该算法对网络的延迟,送达率和能耗 ...
【技术保护点】
【技术特征摘要】
1.一种深度强化学习的机会路由候选集节点排序方法,其特征在于,包括以下步骤:步骤1:针对机会路由候选集节点排序问题建立水下机会路由网络模型;建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义,具体如下:深度强化学习智能体的状态定义为发送节点的候选集节点信息;对于发送节点i,状态被定义为C
i
为节点i的候选集;为节点i的候选集节点j的信息,其中,E
j
代表节点j的剩余能量,D
j
代表节点j的深度,代表邻居节点j与节点i之间的距离,代节点j与sink节点之间的距离,N
j
代表节点j的邻居节点个数;状态s
i
是一个二维数组,每一行对应一个一共有|C
i
|行;深度强化学习智能体的动作定义为发送节点所采用的一种候选集排序结果,发送节点i采取的动作用a
i
表示,发送节点的动作空间是该节点候选集所有可能的排列顺序;对于发送节点i,可以选择的动作有|C
i
|!种;奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况(1)当下一时刻转发节点j是sink节点时,此时获得R
Sink
奖励;(2)当下一时刻转发节点j的候选集信息为空,j不能将数据包转发出去,此时获得R
null
奖励;(3)当下一时刻转发节点j可以转发数据包,此时如果j是优先级最高的节点,则获取的这种情况下最大的奖励值R
max
;如果j是优先级最低的节点,则获取的这种情况下最小的奖励值R
mi
;否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在R
max
和R
min
之间呈等差数列的形式下降;步骤2:建立候选集排序深度强化学习算法模型,其中包括策略网络和价值网络;所述的策略网络将t时刻的状态s
t
作为输入,计算并输出所有候选集节点优先级的概率分布p
t
,然后根据概率分布生成候选集排序结果即动作a
t
;所述的价值网络根据输入的t时刻状态s
t
,计算并输出该状态对应的价值估计v
t
;步骤3:对来自水下机会路由网络模型的数据进行解析,得到当前t时刻的候选集节点信息s
t
、候选集节点序号列表Clist
t
、奖励值r
t
以及此时发送数据包节点的序号id
t
;对候选集节点信息s
t
中每个特性进行归一化;步骤4:利用深度强化学习智能体与水下机会路由网络模型进行交互,采取迭代试错的学习方法训练并保存深度强化学习算法模型;步骤4.1:深度强化学习智能体与水下机会路由网络模型交互生成决策序列,深度强化学习智能体根据t时刻候选集节点信息s
t
计算得到候选集节点转发优选级分布p
t
,并且根据p
t
生成候选集排序结果a
t
,发送节点将排序结果添加到包头中并广播数据包,水下机会路由网络模型根据候选集节点转发情况,反馈给智能体id
t+1
、r
t+1
...
【专利技术属性】
技术研发人员:冯晓宁,刘朋,曲立平,兰海燕,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。