System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向智能超表面的波束赋形方法、装置、设备及存储介质制造方法及图纸_技高网

面向智能超表面的波束赋形方法、装置、设备及存储介质制造方法及图纸

技术编号:41404577 阅读:2 留言:0更新日期:2024-05-20 19:30
本发明专利技术提供一种面向智能超表面的波束赋形方法、装置、设备及存储介质,涉及无线通信技术领域。该方法包括:根据智能超表面辅助通信系统获取信道状态信息和系统参数;并根据信道状态信息和系统参数进行数学建模,得到数学模型;将数学模型转换为马尔可夫决策过程,以确定智能体;并根据智能体确定状态空间集合、动作空间集合和奖励函数公式;基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据状态空间集合、动作空间集合和奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法;通过目标学习强化算法获取最优的混合最大比传输和迫零的线性组合波束赋形策略。这样,可避免性能损失,学习到最优的波束赋形策略。

【技术实现步骤摘要】

本专利技术涉及无线通信,尤其涉及一种面向智能超表面的波束赋形方法、装置、设备及存储介质


技术介绍

1、当信号传输环境中存在着障碍物的遮挡时,高频信号的低绕射特性会造成接收信号强度大幅下降,形成无线覆盖盲区。为此,智能超表面(reconfigurable intelligentsurface, ris)成为解决这一难题的关键技术。然而ris在通信系统中的使用增加了场景的复杂性,从而导致强化学习过程中的性能损失,无法达到更优的波束赋形。


技术实现思路

1、有鉴于此,本专利技术的目的是为了克服现有技术中的不足,提供一种面向智能超表面的波束赋形方法、装置、设备及存储介质,用于通过强化学习算法的迭代训练,不断优化调整智能超表面辅助通信系统中混合mrt和zf的波束赋形方向和基站的发射功率,从而在满足用户端传输速率要求条件下,实现系统效用函数的最大化。

2、本专利技术提供如下技术方案:

3、第一方面,本专利技术提出一种面向智能超表面的波束赋形方法,所述方法包括:

4、根据智能超表面辅助通信系统获取信道状态信息和系统参数;并根据所述信道状态信息和所述系统参数进行数学建模,得到数学模型;

5、将所述数学模型转换为马尔可夫决策过程,以确定智能体;并根据所述智能体确定状态空间集合、动作空间集合和奖励函数公式;

6、基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法;

7、通过所述目标学习强化算法获取最优的混合最大比传输和迫零的线性组合波束赋形策略。

8、在一实施方式中,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法,包括:

9、设置初始时间步和最长时间步;

10、判断所述初始时间步是否小于或等于所述最长时间步;

11、若所述初始时间步小于或等于所述最长时间步,则基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练;并且所述初始时间步加一,重新执行判断所述初始时间步是否小于或等于所述最长时间步的步骤;

12、直至所述初始时间步大于所述最长时间步,结束所述初始强化学习算法的循环训练,得到所述目标强化学习算法。

13、在一实施方式中,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练,包括:

14、基于所述状态空间集合获取当前状态信息;

15、基于所述初始强化学习算法,根据所述当前状态信息得到动作输出值和状态价值函数;

16、基于所述线性组合波束赋形策略和所述动作空间集合,根据所述动作输出值确定所述智能体的实际动作;

17、所述智能体执行所述实际动作,得到新的当前状态信息;

18、基于所述奖励函数公式根据所述实际动作计算奖励值;

19、基于所述状态价值函数,根据所述当前状态信息、所述奖励值、所述实际动作和所述新的当前状态信息更新所述初始强化学习算法的网络参数。

20、在一实施方式中,所述初始强化学习算法包括策略网络和价值网络,所述基于所述初始强化学习算法,根据所述当前状态信息得到动作输出值和状态价值函数,包括:

21、将所述当前状态信息输入至所述策略网络,得到所述动作输出值;并将所述当前状态信息输入至所述价值网络,得到所述状态价值函数。

22、在一实施方式中,所述基于所述线性组合波束赋形策略,根据所述动作输出值确定所述智能体的实际动作,包括:

23、基于最大比传输和迫零,根据所述动作输出值计算得到混合最大比传输和迫零方向的波束赋形方向,并基于激活函数根据波束赋形方向得到目标基站发射功率;

24、基于所述动作空间集合,根据所述目标基站发射功率确定所述实际动作;

25、所述基于所述奖励函数公式根据所述实际动作计算奖励值,包括:

26、基于所述奖励函数公式,根据所述波束赋形方向计算所述奖励值。

27、在一实施方式中,所述基于最大比传输和迫零,根据所述动作输出值计算得到混合最大比传输和迫零方向的波束赋形方向,包括:

28、根据以下公式计算得到混合最大比传输和迫零方向的波束赋形方向:

29、,

30、其中,为混合最大比传输和迫零方向的波束赋形方向,,为混合最大比传输和迫零方向的波束赋形线性组合系数,代表第 k个基站的迫零方向,代表第 k个基站的最大比传输方向。

31、在一实施方式中,所述基于所述状态价值函数,根据所述当前状态信息、所述奖励值、所述实际动作和所述新的当前状态信息更新所述初始强化学习算法的网络参数,包括:

32、将所述当前状态信息、所述实际动作、所述奖励值和所述新的当前状态信息作为待计算轨迹保存至经验池;

33、从所述经验池的待计算轨迹中选择多个目标轨迹;

34、根据所述状态价值函数和各所述目标轨迹计算对应的优势函数和目标状态价值;

35、根据所述优势函数和所述目标状态价值更新所述初始强化学习算法的网络参数。

36、第二方面,本专利技术提出一种面向智能超表面的波束赋形装置,所述装置包括:

37、建模模块,用于根据智能超表面辅助通信系统获取信道状态信息和系统参数;并根据所述信道状态信息和所述系统参数进行数学建模,得到数学模型;

38、确定模块,用于将所述数学模型转换为马尔可夫决策过程,以确定智能体;并根据所述智能体确定状态空间集合、动作空间集合和奖励函数公式;

39、训练模块,用于基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法;

40、获取模块,用于通过所述目标学习强化算法获取最优的混合最大比传输和迫零的线性组合波束赋形策略。

41、第三方面,本专利技术提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的面向智能超表面的波束赋形方法的步骤。

42、第四方面,本专利技术提出一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的面向智能超表面的波束赋形方法的步骤。

43、本专利技术公开的面向智能超表面的波束赋形方法、装置、设备及存储介质,根据智能超表面辅本文档来自技高网...

【技术保护点】

1.一种面向智能超表面的波束赋形方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向智能超表面的波束赋形方法,其特征在于,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法,包括:

3.根据权利要求2所述的面向智能超表面的波束赋形方法,其特征在于,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练,包括:

4.根据权利要求3所述的面向智能超表面的波束赋形方法,其特征在于,所述初始强化学习算法包括策略网络和价值网络,所述基于所述初始强化学习算法,根据所述当前状态信息得到动作输出值和状态价值函数,包括:

5.根据权利要求3所述的面向智能超表面的波束赋形方法,其特征在于,所述基于所述线性组合波束赋形策略,根据所述动作输出值确定所述智能体的实际动作,包括:

6.根据权利要求5所述的面向智能超表面的波束赋形方法,其特征在于,所述基于最大比传输和迫零,根据所述动作输出值计算得到混合最大比传输和迫零方向的波束赋形方向,包括:

7.根据权利要求3所述的面向智能超表面的波束赋形方法,其特征在于,所述基于所述状态价值函数,根据所述当前状态信息、所述奖励值、所述实际动作和所述新的当前状态信息更新所述初始强化学习算法的网络参数,包括:

8.一种面向智能超表面的波束赋形装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的面向智能超表面的波束赋形方法的步骤。

10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的面向智能超表面的波束赋形方法的步骤。

...

【技术特征摘要】

1.一种面向智能超表面的波束赋形方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向智能超表面的波束赋形方法,其特征在于,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法,包括:

3.根据权利要求2所述的面向智能超表面的波束赋形方法,其特征在于,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练,包括:

4.根据权利要求3所述的面向智能超表面的波束赋形方法,其特征在于,所述初始强化学习算法包括策略网络和价值网络,所述基于所述初始强化学习算法,根据所述当前状态信息得到动作输出值和状态价值函数,包括:

5.根据权利要求3所述的面向智能超表面的波束赋形方法,其特征在于,所述基于所述线性组合波束赋形策略,根据...

【专利技术属性】
技术研发人员:郭为秀任倩烨张劲松陆杨杨世永张程欣
申请(专利权)人:UT斯达康通讯有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1