一种用于通信的复数神经网络的设计方法技术

技术编号:39660656 阅读:7 留言:0更新日期:2023-12-11 18:23
本发明专利技术公开了一种用于通信的复数神经网络的设计方法

【技术实现步骤摘要】
一种用于通信的复数神经网络的设计方法


[0001]本专利技术属于通信领域,具体涉及一种用于通信的复数神经网络的设计方法


技术介绍

[0002]随着基于注意力机制的
Transformer(Attention Is All You Need)、Bert(BERT:Pre

training of Deep Bidirectional Transformers for Language Understanding)、ChatGpt(Improving Language Understanding by Generative Pre

Training)
等深度学习架构的提出,自然语言处理
(NLP)
领域在近五年得到了极大的发展
。Transfo rmer
架构首先使用了自注意力和多头注意力等技术应用在机器翻译问题上

随后提出的
Bert
架构在
11
项自然语言处理任务上取得最优
。ChatGpt
创造性地开发了交互式聊天应用,
ChatGPT
表现出各种惊人的能力使其迅速引起广泛关注

[0003]注意力机制在
NLP
领域的性能之优越,使得计算机视觉
(CV)
领域的研究人员也尝试将注意力机制加入其研究框架中,由此诞生了
ViT
等用于视觉领域的模型架构
。ViT<br/>和
MAE
等架构均在各自的任务上取得了令人惊叹的效果

[0004]在通信领域的自动调制识别
(AMC)
任务中,目前也有研究人员尝试将注意力机制应用于其中,在基础注意力模型上加入偏置

双注意力等,并取得了优于卷积神经网络,循环神经网络架构的效果

[0005]现有技术的缺陷和不足:
[0006]AMC
任务和
NLP
任务有本质区别

对于
NLP
任务,
Embedding
将每个字典中
one

hot
编码稀疏向量的字降维到低维的稠密向量的语义空间中,每个向量表示一个字,两个向量直接进行点积即可求得两向量的相关性;而
AMC
任务中,截取的每一段向量中的每一个值都是一个采样值其包含了传输信息

信道

调制等多方面信息,相互计算点积实际上等效于计算截取序列后的互相关或自相关

[0007]对于上述实现的注意力机制而言,计算结果是稀疏的相关,及相关函数的间隔为截取长度的采样值

单层注意力中稀疏的相关特性不足以直接反应多径信道中的稠密路径,需要堆叠多层结构以学习序列中信道等信息

[0008]另外,目前
AMC
任务是将
IO
两路信号做成2行的向量直接输入实数神经网络,其运算没有利用好复数运算的特征

现有学者提出了卷积实现复数运算的方法并设计了针对复数的批量归一化层和激活函数,但其对复数梯度的推导有误,且使用了在复数域中不可微的损失函数,使得其模型仅是在对复数的实部虚部分别求导,并未从原理上实现复数神经网络

[0009]综上所述,目前将
NLP

CV
领域的注意力机制直接应用于
AMC
任务时,没有利用好
AMC
任务的先验知识,需要对注意力进行合理的设计来更好地提取序列中的传输信息

信道

调制等特征


技术实现思路

[0010]本专利技术提供一种用于通信的复数神经网络的设计方法,实现更好地提取序列中的传输信息

信道

调制等特征

[0011]本专利技术通过以下技术方案实现:
[0012]一种用于通信的复数神经网络的设计方法,所述设计方法包括通信的复数神经通信的复数神经网络结构设计

复数损失函数

梯度计算方法以及参数更新方法,所述通信的复数神经通信的复数神经网络结构设计为使用线性层,所述线性层为单注意力层,所述通信的复数神经通信的复数神经网络结构设计具体包括以下步骤:
[0013]步骤
W1
:复数滑窗注意力前,对采样序列进行有交错的截取,并使用可训练的位置编码;
[0014]步骤
W2
:截取序列通过线性层生成查询
q
,键
k
,值
v
序列;
[0015]步骤
W3
:计算每一对
q
m
查询序列和
k
n
键序列互相关作为一个注意力序列;
[0016]步骤
W4
:计算注意力序列作为卷积核与
v
n
值序列的卷积,对
v
n
进行填充使得卷积计算结果与
v
n
长度一致,作为当前键值对下的输出:
[0017]步骤
W5
:计算关于
n
的和得到
q
m
对应输出
b
m

[0018]步骤
W6
:采用多头注意力时,将多头的
heads

b
m
拼接到一起,作为当前层的输出

[0019]进一步的,所述步骤
W1
具体为,
[0020]Seq

Input+Position Embedding
[0021]a
n

Seq[n

1*(p

cross:n*(p

cross+cross

1][0022]其中
p
是抽取的单序列长度,
cross
是序列交错部分的长度,
[0023]所述步骤
W2
具体为,
[0024]Q

W
q
a
[0025]k

W
k
a
[0026]v

W
v
a
[0027]其中为可训练权重参数;有
d
q
&lt;d
k
;采用多头注意力时,有
d
v

p/heads

heads
为多头头数;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于通信的复数神经网络的设计方法,其特征在于,所述设计方法包括通信的复数神经网络结构设计

复数损失函数

梯度计算方法以及参数更新方法,所述通信的复数神经网络结构设计为使用线性层,所述线性层为单注意力层,所述通信的复数神经网络结构设计具体包括以下步骤:步骤
W1
:复数滑窗注意力前,对采样序列进行有交错的截取,并使用可训练的位置编码;步骤
W2
:截取序列通过线性层生成查询
q
,键
k
,值
v
序列;步骤
W3
:计算每一对
q
m
查询序列和
k
n
键序列互相关作为一个注意力序列;步骤
W4
:计算注意力序列作为卷积核与
v
n
值序列的卷积,对
v
n
进行填充使得卷积计算结果与
v
n
长度一致,作为当前键值对下的输出:步骤
W5
:计算关于
n
的和得到
q
m
对应输出
b
m
:步骤
W6
:采用多头注意力时,将多头的
heads

b
m
拼接到一起,作为当前层的输出
。2.
根据权利要求1所述一种用于通信的复数神经网络的设计方法,其特征在于,所述步骤
W1
具体为,
Seq

Input+Position Embeddinga
n

Seq[(n

1)*(p

cross)

n*(p

cross)+cross

1]
其中
p
是抽取的单序列长度,
cross
是序列交错部分的长度,所述步骤
W2
具体为,
q

W
q
ak

W
k
av

W
v
a
其中为可训练权重参数;有
d
q

d
k
;采用多头注意力时,有
d
v

p/heads

heads
为多头头数;所述步骤
W3
具体为,所述步骤
W4
具体为,其中所述步骤
W5
具体为,
3.
根据权利要求1所述一种用于通信的复数神经网络的设计方法,其特征在于,所述线性层定义输出复数表达式为:
q

q
I
+jq
QQ
其中
bias
I

bias

【专利技术属性】
技术研发人员:郭承钰韩帅孟维晓吴尘雨
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1