当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于强化学习的码字构造方法技术

技术编号:37247122 阅读:18 留言:0更新日期:2023-04-20 23:26
本发明专利技术公开了一种基于强化学习的码字构造方法。本方法为:1)随机初始化一用于生成低密度奇偶校验码的校验矩阵H的下标值Init_H_block;2)神经网络根据初始状态s0、Init_H_block计算输出均值矩阵μ;3)根据神经网络采样智能体由当前状态s到下一个动作a的N条可选轨迹;由动作a

【技术实现步骤摘要】
一种基于强化学习的码字构造方法


[0001]本专利技术属于通信以及机器学习领域,旨在用一种机器学习的方法来构造用于通信系统的准循环低密度奇偶校验码(QC

LDPC),从而得到一种低复杂度的QC

LDPC码字构造方法,同时还能提升构造出码字的性能。

技术介绍

[0002]低密度奇偶校验码(LDPC)最初由Gallager提出,1996年,D.MacKay、M.Neal等人对它重新进行了研究。LDPC码是一种基于稀疏奇偶校验矩阵的线性分组码,它的性能逼近香农限,具有较低的编译码复杂度,在硬件上实现也较为简单,是一种具有较好纠错性能的好码。目前已经有大量的研究集中在LDPC码的构造、编码、译码和应用等方面。
[0003]突发错误是指在数据传输过程中,会出现成串的错误,这种错误多半出现在传输线路不良、继电器误动作或者雷电干扰等等,这种情况的错误之间是有关系的,一个错误的出现会影响下一个码元的错误出现。构造出LDPC码字,提高通信系统抗突发错误的能力是本文要解决的问题。
[0004]传统的构造LDPC方式具有构造方式复杂、步骤繁琐等劣势,且构造方法并不能根据不同通信系统信道特征的变化而产生相应的最优码字。针对不同信道,现有的码字能否在新的信道中能够有好的表现是未知的。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于强化学习的QC

LDPC码字构造方法。本专利技术利用强化学习的机器学习方法,构造QC<br/>‑
LDPC码字,在构造的过程中加入信道信息,利用信道特征产生适合不同信道的最优码字,从而使得码字的构造变得简单易懂,灵活可变,满足不同需求。该方法不止可以构造抗突发错误能力强的码字,也可以构造抗随机错误能力强的码字等。
[0006]本专利技术的技术方案为:
[0007]一种基于强化学习的码字构造方法,其步骤包括:
[0008]1)随机初始化一用于生成低密度奇偶校验码的校验矩阵H的下标值Init_H_block,随机初始化神经网络;其中,θ为神经网络的参数,所述神经网络用于根据当前状态s来决定下一个动作a;
[0009]2)所述神经网络根据初始状态s0、Init_H_block计算输出均值矩阵μ;
[0010]3)基于强化学习方法根据所述神经网络采样智能体由当前状态s到下一个动作a的N条可选轨迹;从正态分布N(μ,σ2)中采样确定第n条轨迹对应的动作a
n
;由动作a
n
和初始状态确定下一个状态由和矩阵Init_H_block确定第n条轨迹对应的校验矩阵H
n
;基于该校验矩阵H
n
计算第n条轨迹的回报G
n
;然后所述神经网络根据μ、a
n
、G
n
计算期望回报;其中,n=1,2,3,

,N,N为码字的码长,σ2为采样轨迹的离散程度;
[0011]4)对所述期望回报求导,得到梯度Δ
θ
,用梯度上升的方法优化更新所述神经网络
的参数θ;若参数θ收敛,则神经网络根据s0计算更新输出均值矩阵μ

,从正态分布N(μ

,σ2)中采样确定动作a;由动作a和初始状态s0确定下一个状态s1;由s1和Init_H_block确定校验矩阵H并输出;
[0012]5)若参数θ不收敛,则重复步骤2)~4);
[0013]6)将步骤4)输出的所述校验矩阵H作为对应的低密度奇偶校验码LDPC的校验矩阵。
[0014]进一步的,所述神经网络为多层感知机神经网络net
θ

[0015]进一步的,所述神经网络为连续可微的函数π
θ
(a|s)。
[0016]进一步的,用梯度上升的方法来更新参数θ使目标函数最大;其中,目标函数τ为轨迹,p
θ
(τ)为产生轨迹τ的概率,G(τ)为轨迹τ的回报,r
t+1
为t时刻的状态s
t
转为t+1时刻状态s
t+1
产生的奖励,T为轨迹终止时间。
[0017]进一步的,所述期望回报为其中,τ为轨迹,p
θ
(τ)为产生轨迹τ的概率,G(τ)为轨迹τ的回报,为第n条轨迹的第t时刻的动作,为第n条轨迹的第t时刻的状态,为第n条轨迹的第t时刻的状态,为第n条轨迹的第t到T时刻的部分轨迹,为第n条轨迹的第t到T时刻的部分轨迹产生的总回报,T为轨迹终止时间。
[0018]一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
[0019]一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
[0020]本专利技术主要包括以下内容:
[0021]1.强化学习
[0022]强化学习也叫增强学习,是智能体在与环境交互中通过不断学习新策略以达到回报(奖励)最大化的过程。它是一种特殊的监督学习方法,不需要人工标注的方式来给数据打标签。利用策略确定当前“正确”的标签,并通过更新策略可以找到“最优”的标签。
[0023]先简单描述下强化学习的基本要素。
[0024](1)状态s:是对环境的描述,可以是连续的或者是离散的。
[0025](2)动作a:是对智能体行为的描述,由策略决定,该行为可以是连续的或者是离散的。
[0026](3)策略π(a|s):是一个根据当前状态s来决定下一个动作a的函数。
[0027](4)状态转移概率p(s1|s,a):是s在做出动作a之后,下一个状态转变为s1的概率,所以智能体与环境的交互过程也可以看作是马尔可夫决策过程。
[0028](5)奖励r(s1,a,s):是状态s做出动作a后,给予的奖励。
[0029]通常,在智能体与环境交互过程中,会涉及到多个状态的转变,因此这个过程可以用轨迹来描述。
[0030]τ=s0,a0,s1,r1,a1,s2,r2,a2,s3,r3,a3,s4,r4,,...,s
T
‑1,a
T
‑1,s
T
,r
T

[0031]则该轨迹的总回报为产生该轨迹的概率为
[0032][0033]由于状态和策略都有一定的随机性,每次产生的交互轨迹也会有所不同,所以总回报也会不一样,所以强化学习的目标是学习到一个策略π
θ
(a|s)来最大化期望回报所以学习的目标函数为
[0034][0035]其中θ为策略函数的参数。
[0036]学习策略的方法有很多,本文所用到的是策略梯度的强化学习方法。假设策略函数π
θ
(a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的码字构造方法,其步骤包括:1)随机初始化一用于生成低密度奇偶校验码的校验矩阵H的下标值Init_H_block,随机初始化神经网络;其中,θ为神经网络的参数,所述神经网络用于根据当前状态s来决定下一个动作a;2)所述神经网络根据初始状态s0、Init_H_block计算输出均值矩阵μ;3)基于强化学习方法根据所述神经网络采样智能体由当前状态s到下一个动作a的N条可选轨迹;从正态分布N(μ,σ2)中采样确定第n条轨迹对应的动作a
n
;由动作a
n
和初始状态确定下一个状态由和矩阵Init_H_block确定第n条轨迹对应的校验矩阵H
n
;基于该校验矩阵H
n
计算第n条轨迹的回报G
n
;然后所述神经网络根据μ、a
n
、G
n
计算期望回报;其中,n=1,2,3,

,N,N为码字的码长,σ2为采样轨迹的离散程度;4)对所述期望回报求导,得到梯度Δ
θ
,用梯度上升的方法优化更新所述神经网络的参数θ;若参数θ收敛,则神经网络根据s0计算更新输出均值矩阵μ

,从正态分布N(μ

,σ2)中采样确定动作a;由动作a和初始状态s0确定下一个状态s1;由s1和Init_H_block确定校验矩阵H并输出;5)若参数θ不收敛,则重复步骤2)~4);6)将步骤4)输出...

【专利技术属性】
技术研发人员:杨川川马林美冯纪强李飞鹏徐晨
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1