一种基于在线强化学习的传输模式选择方法及装置制造方法及图纸

技术编号:24806790 阅读:48 留言:0更新日期:2020-07-07 22:26
本发明专利技术公开了一种基于在线强化学习的传输模式选择方法及装置,其中,该方法包括:获取窄带物联网系统节点的当前时隙状态信息;根据所述当前状态信息利用探索‑利用策略执行动作;计算当所述窄带物联网系统节点执行完动作后的奖励值;获取所述窄带物联网系统节点的下一时隙状态信息;根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;根据所述新预估策略值和所述第一动作策略值选择传输模式。通过实施本发明专利技术,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点可以选择能效最大的传输模式选择方案。

【技术实现步骤摘要】
一种基于在线强化学习的传输模式选择方法及装置
本专利技术涉及电力窄带物联网领域,具体涉及一种基于在线强化学习的传输模式选择方法及装置。
技术介绍
电力环境下的物联网是一个实现电网基础设施、人员以及所在环境识别、感知、互联与控制的网络系统。考虑到窄带物联网(NarrowBandInternetofThings,NB-IoT)基站边缘的节点可能覆盖不足从而导致中断概率很高,并且难以满足服务需求。为了提高NB-IoT系统在该电力物联网场景中的覆盖能力,从通信技术和资源分配管理方面出发,相关技术中考虑采用正交多址技术(OrthogonalMultipelAccess,OMA)和非正交多址接入技术(Non-OrthogonalMultipelAccess,NOMA)混合传输机制,同时具有直接传输和中继协作传输两种传输模式。相关技术中,对传输模式的选择主要使用普通编程算法进行研究,但是由于在NB-IoT网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算,不能对传输模式进行智能选择。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的在NB-IoT网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算的缺陷,从而提供一种基于在线强化学习的传输模式选择方法及装置。根据第一方面,本专利技术实施例公开了一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,包括如下步骤:步骤a:获取窄带物联网系统节点的当前时隙状态信息;步骤b:根据所述当前状态信息利用探索-利用策略执行动作;步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值;步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;步骤e:根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;步骤f:根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式。结合第一方面,在第一方面第一实施方式中,所述步骤c包括:其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。结合第一方面第一实施方式,在第一方面第二实施方式中,所述步骤g包括:比较所述新预估策略值和所述第一动作策略值;当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。结合第一方面第二实施方式,在第一方面第三实施方式中,当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。结合第一方面第三实施方式,在第一方面第四实施方式中,所述方法还包括:根据更新后的Q函数更新所述第一动作策略值,得到第二动作策略值;将所述第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行所述步骤a-步骤g。根据第二方面,本专利技术实施例还公开了一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,包括:第一获取模块,用于获取窄带物联网系统节点的当前时隙状态信息;执行模块,用于根据所述当前状态信息利用探索-利用策略执行动作;计算模块,用于计算当所述窄带物联网系统节点执行完动作后的奖励值;第二获取模块,用于获取所述窄带物联网系统节点的下一时隙状态信息;第一更新模块,用于根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;第二更新模块,用于根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;选择模块,用于根据所述新预估策略值和所述第一动作策略值选择传输模式。结合第二方面,在第二方面第一实施方式中,所述计算模块包括:其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。结合第二方面第一实施方式,在第二方面第二实施方式中,所述选择模块包括:比较模块,用于比较所述新预估策略值和所述第一动作策略值;第一选择子模块,用于当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。根据第三方面,本专利技术实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述基于在线强化学习的传输模式选择方法的步骤。根据第四方面,本专利技术实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的基于在线强化学习的传输模式选择方法的步骤。本专利技术技术方案,具有如下优点:本专利技术提供的基于在线强化学习的传输模式选择方法及装置,通过获取窄带物联网系统节点的当前时隙状态信息,根据所述当前状态信息利用探索-利用策略执行动作,计算当所述窄带物联网系统节点执行完动作后的奖励值,获取所述窄带物联网系统节点的下一时隙状态信息;根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值,根据所述第一动作策略值更新预设预估策略值,得到新预估策略值,根据所述新预估策略值和所述第一动作策略值选择传输模式。通过实施本专利技术,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1中基于窄带物联网系统的上行链路系统模型的一个具体示例图;图2为本专利技术实施例1中基于在线强化学习的传输模式选择方法的一个具体示例的流程图;图3为本专利技术实施例功率与能效对比的一个具体示例仿真图;图4为本专利技术实施例窄带物联网系统节点数量与能效对比的一个具体示例仿真图;图5为本专利技术实施例2中基于在线强化学习的传输模式选择装置的一个具体示例的原理框图;图6为本专利技术实施例3中计算机设备的一个具体示例的原理框图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。实施例1如图1所示,本文档来自技高网...

【技术保护点】
1.一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,其特征在于,包括如下步骤:/n步骤a:获取窄带物联网系统节点的当前时隙状态信息;/n步骤b:根据所述当前状态信息利用探索-利用策略执行动作;/n步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值;/n步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;/n步骤e:根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;/n步骤f:根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;/n步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式。/n

【技术特征摘要】
1.一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,其特征在于,包括如下步骤:
步骤a:获取窄带物联网系统节点的当前时隙状态信息;
步骤b:根据所述当前状态信息利用探索-利用策略执行动作;
步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值;
步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;
步骤e:根据所述奖励值和所述下一时隙状态信息更新预设Q函数,并更新预设动作策略值,得到第一动作策略值;
步骤f:根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;
步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式。


2.根据权利要求1所述的方法,其特征在于,所述步骤c包括:



其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,Ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。


3.根据权利要求2所述的方法,其特征在于,所述步骤g包括:
比较所述新预估策略值和所述第一动作策略值;
当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。


4.根据权利要求3所述的方法,其特征在于,当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据更新后的Q函数更新所述第一动作策略值,得到第二动作策略值;
将所述第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行所述步骤a-步骤g。


6.一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与...

【专利技术属性】
技术研发人员:王瑶梁云尹喜阳郭延凯岳顺民田文峰黄凤孙晓艳黄莉黄辉李春龙邓辉
申请(专利权)人:全球能源互联网研究院有限公司国网天津市电力公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1