【技术实现步骤摘要】
基于自回归模型的变换器与相关的处理器
[0001]本专利技术是关于一种变换器与相关的处理器,特别是关于基于自回归模型的的变换器与相关的处理器
。
技术介绍
[0002]在机器学习的领域中,常利用变换器来执行编码与译码的工作
。
随着机器学习的复杂度日益提升,要如何运用运算资源来提升变换器功效已成为了本领域重要的议题之一
。
技术实现思路
[0003]本专利技术实施例涉及一种基于自回归模型的变换器,用于转换输入序列以产生输出序列,其包含编码器
、
译码器及缓存器
。
编码器用以对输入序列编码以产生中间向量
。
译码器用以依据起始符号对中间向量译码以产生输出序列;输出序列包含
y1~
y
m
输出向量,其中
m
为正整数
。
缓存器用以存储
y1~
y
m
输出向量
。
译码器包含屏蔽式自注意力机制模块
、
...
【技术保护点】
【技术特征摘要】
1.
一种基于自回归模型的变换器,用于转换输入序列以产生输出序列,其特征在于,包含:编码器,用以对该输入序列编码以产生复数个中间向量;译码器,用以依据起始符号对该些中间向量译码以产生该输出序列,其中该输出序列包含
y1~
y
m
输出向量,其中
m
为正整数;及缓存器,用以存储该些
y1~
y
m
输出向量,其中该译码器包含:屏蔽式自注意力机制模块,用以依据该起始符号与该些
y1~
y
m
‑1输出向量执行屏蔽式自注意力机制运算以分别在对应的
t1~
t
m
时段依序产生
a1~
a
m
向量;交叉注意力机制模块,具有
W
q
矩阵
、W
k
矩阵与
W
v
矩阵,用以依据该
W
q
矩阵对该些
a1~
a
m
向量计算以分别取得
q1~
q
m
向量,以及依据该
W
k
矩阵与该
W
v
矩阵对该编码器产生的该些中间向量计算以分别取得
K
值与
V
值,并在对应的
t1~
t
m
时段分别对该
q1~
q
m
向量
、
该
K
值与该
V
值进行交叉注意力机制运算以产生
b1~
b
m
向量,其中该交叉注意力机制模块还用以将该些
b1~
b
m
向量
、
该
K
值与该
V
值存储在该缓存器,其中该
q1~
q
m
值为
1*N
维的向量,其中
N
为正整数;前馈类神经网络,用以在对应的该些
t1~
t
m
时段分别依据该些
b1~
b
m
向量以转化成
c1~
c
m
向量;正规化指数函数模块,用以在对应的
t1~
t
m
时段分别依据该些
c1~
c
m
向量产生
d1~
d
m
向量;及选择模块,用以依据该些
d1~
d
m
向量输出该些
y1~
y
m
输出向量
。2.
根据权利要求1所述的基于自回归模型的变换器,其中在该
t1时段中,该屏蔽式自注意力机制模块用以依据该起始符号执行该屏蔽式自注意力机制运算以产生该
a1向量,其中在该
t
n
时段中,该屏蔽式自注意力机制模块仅依据该
y
n
‑1输出向量执行该屏蔽式自注意力机制运算以产生该
a
n
向量,并将该
a
n
向量存储在该缓存器,其中
n
为小于或等于
m
的正整数,及其中在该
t
n
时段中,该屏蔽式自注意力机制模块不对该起始符号与该些
y1~
y
n
‑2值做该屏蔽式自注意力机制运算
。3.
根据权利要求1所述的基于自回归模型的变换器,其中在该
t
n
时段中,该交叉注意力机制模块依据该
W
q
矩阵对该
a
n
向量计算以取得该
q
n
向量,并仅对该
q
n
向量
、
该
K
值与该
V
值进行该交叉注意力机制运算以产生该
b
n
向量,其中在该
t
n
时段中,该交叉注意力机制模块不对该些
q1~
q
n
‑1向量做该交叉注意力机制运算,其中
n
为小于或等于
m
的正整数
。4.
根据权利要求3所述的基于自回归模型的变换器,其中在该
t
n
时段中,该前馈类神经网络仅转化该
b
n
向量以产生该
c
n
向量,并将该
c
n
向量存储在该缓存器
。5.
根据权利要求1所述的基于自回归模型的变换器,其中该译码器还包含:第一正规化模块,用以在该些
t1~
t
m
时段分别对该些
a1~
a
m
向量进行正规化;第二正规化模块,用以在该些
t1~
t
m
时段分别对该些<...
【专利技术属性】
技术研发人员:阮鸿辉,
申请(专利权)人:英属维京群岛商烁星有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。