【技术实现步骤摘要】
一种用于通信的复数神经网络的设计方法
[0001]本专利技术属于通信领域,具体涉及一种用于通信的复数神经网络的设计方法
。
技术介绍
[0002]随着基于注意力机制的
Transformer(Attention Is All You Need)、Bert(BERT:Pre
‑
training of Deep Bidirectional Transformers for Language Understanding)、ChatGpt(Improving Language Understanding by Generative Pre
‑
Training)
等深度学习架构的提出,自然语言处理
(NLP)
领域在近五年得到了极大的发展
。Transfo rmer
架构首先使用了自注意力和多头注意力等技术应用在机器翻译问题上
。
随后提出的
Bert
架构在
11
项自然语言处理任务上取得最优
。ChatGpt
创造性地开发了交互式聊天应用,
ChatGPT
表现出各种惊人的能力使其迅速引起广泛关注
。
[0003]注意力机制在
NLP
领域的性能之优越,使得计算机视觉
(CV)
领域的研究人员也尝试将注意力机制加入其研究框架中,由此诞生了
ViT
等用于视觉领域的模型架构
。ViT< ...
【技术保护点】
【技术特征摘要】
1.
一种用于通信的复数神经网络的设计方法,其特征在于,所述设计方法包括通信的复数神经网络结构设计
、
复数损失函数
、
梯度计算方法以及参数更新方法,所述通信的复数神经网络结构设计为使用线性层,所述线性层为单注意力层,所述通信的复数神经网络结构设计具体包括以下步骤:步骤
W1
:复数滑窗注意力前,对采样序列进行有交错的截取,并使用可训练的位置编码;步骤
W2
:截取序列通过线性层生成查询
q
,键
k
,值
v
序列;步骤
W3
:计算每一对
q
m
查询序列和
k
n
键序列互相关作为一个注意力序列;步骤
W4
:计算注意力序列作为卷积核与
v
n
值序列的卷积,对
v
n
进行填充使得卷积计算结果与
v
n
长度一致,作为当前键值对下的输出:步骤
W5
:计算关于
n
的和得到
q
m
对应输出
b
m
:步骤
W6
:采用多头注意力时,将多头的
heads
个
b
m
拼接到一起,作为当前层的输出
。2.
根据权利要求1所述一种用于通信的复数神经网络的设计方法,其特征在于,所述步骤
W1
具体为,
Seq
=
Input+Position Embeddinga
n
=
Seq[(n
‑
1)*(p
‑
cross)
:
n*(p
‑
cross)+cross
‑
1]
其中
p
是抽取的单序列长度,
cross
是序列交错部分的长度,所述步骤
W2
具体为,
q
=
W
q
ak
=
W
k
av
=
W
v
a
其中为可训练权重参数;有
d
q
<
d
k
;采用多头注意力时,有
d
v
=
p/heads
,
heads
为多头头数;所述步骤
W3
具体为,所述步骤
W4
具体为,其中所述步骤
W5
具体为,
3.
根据权利要求1所述一种用于通信的复数神经网络的设计方法,其特征在于,所述线性层定义输出复数表达式为:
q
=
q
I
+jq
QQ
其中
bias
I
,
bias
【专利技术属性】
技术研发人员:郭承钰,韩帅,孟维晓,吴尘雨,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。