【技术实现步骤摘要】
基于自回归模型的变换器与相关的处理器
[0001]本专利技术是关于一种变换器与相关的处理器,特别是关于基于自回归模型的的变换器与相关的处理器
。
技术介绍
[0002]在机器学习的领域中,常利用变换器来执行编码与译码的工作
。
随着机器学习的复杂度日益提升,要如何运用运算资源来提升变换器功效已成为了本领域重要的议题之一
。
技术实现思路
[0003]本专利技术实施例涉及一种基于自回归模型的变换器,用于转换输入序列以产生输出序列,其包含编码器
、
译码器及缓存器
。
编码器用以对输入序列编码以产生中间向量
。
译码器用以依据起始符号对中间向量译码以产生输出序列;输出序列包含
y1~
y
m
输出向量,其中
m
为正整数
。
缓存器用以存储
y1~
y
m
输出向量
。
译码器包含屏蔽式自注意力机制模块
、
交叉注意力机制模块
、
前馈类神经网络
、
正规化指数函数模块及选择模块
。
屏蔽式自注意力机制模块用以依据起始符号与
y1~
y
m
‑1输出向量执行屏蔽式自注意力机制运算以分别在对应的
t1~
t
m
时段依序产生
a1~
a
m
向量
。r/>交叉注意力机制模块具有
W
q
矩阵
、W
k
矩阵与
W
v
矩阵,用以依据
W
q
矩阵对
a1~
a
m
向量计算以分别取得
q1~
q
m
向量,以及依据
W
k
矩阵与
W
v
矩阵对编码器产生的中间向量计算以分别取得
K
值与
V
值,并在对应的
t1~
t
m
时段分别对
q1~
q
m
向量
、K
值与
V
值进行交叉注意力机制运算以产生
b1~
b
m
向量
。
交叉注意力机制模块还用以将
b1~
b
m
向量
、K
值与
V
值存储在缓存器
。q1~
q
m
值为
1*N
维的向量,
N
为正整数
。
前馈类神经网络用以在对应的
t1~
t
m
时段分别依据
b1~
b
m
向量以转化成
c1~
c
m
向量
。
正规化指数函数模块用以在对应的
t1~
t
m
时段分别依据
c1~
c
m
向量产生
d1~
d
m
向量
。
选择模块用以依据
d1~
d
m
向量输出
y1~
y
m
输出向量
。
[0004]本专利技术实施例涉及一种处理器,用于基于自回归模型转换输入序列以产生输出序列,其包含内存装置
。
内存装置用以存储程序代码,其中当程序代码被执行时致使处理器执行以下步骤,包含:对输入序列编码以产生中间向量;以及依据起始符号与中间向量产生输出序列
。
输出序列包含
y1~
y
m
输出向量,其中
m
为正整数
。
依据起始符号与中间向量产生输出序列的步骤包含:依据
W
k
矩阵与
W
v
矩阵对中间向量计算以分别取得
K
值与
V
值,并将
K
值与
V
值存储至缓存器;在
t1时段中,依据起始符号执行屏蔽式自注意力机制运算以产生
a1向量,并将
a1向量存储在缓存器,依据
W
q
矩阵对
a1向量计算以产生
q1向量,从缓存器中取得
K
值与
V
值,并对
q1向量
、K
值与
V
值进行交叉注意力机制运算以产生
b1向量,利用前馈类神经网络将该
b1向量转化成
c1向量,以及依据
c1向量以处理产生
y1输出向量;在
t
n
时段中,其中
n
为大于1且小于或等于
m
的正整数,依据
y
n
‑1输出向量执行屏蔽式自注意力机制运算以产生
a
n
向量,并将
a
n
向量存储在缓存器,依据
W
q
矩阵对
a
n
向量计算以产生
q
n
向量,从缓存器中取得
K
值与
V
值,并对
q
n
向量
、K
值与
V
值进行交叉注意力机制运算以产生
b
n
向量,利用前馈类神经网络将
b
n
向量转化成
c
n
向量,并且依据
c
n
向量以处理产生
y
n
输出向量
。
[0005]本专利技术的变换器与相关的处理器减少注意力机制运算中重复运算的操作,借此加速推理
、
减少运算时间并且降低运算功耗,进而提升整体的效能
。
附图说明
[0006]当结合附图阅读时,从以下实施方式更好理解本揭露的方面
。
应注意,根据行业中的标准实践,各种结构不按比例绘制
。
事实上,为清晰论述,各种结构的尺寸可任意增加或减小
。
[0007]图1为本专利技术一些实施例中,变换器的示意图
。
[0008]图2为本专利技术一些实施例中,变换器的示意图
。
[0009]图3为本专利技术一些实施例中,矩阵运算的示意图
。
[0010]图4为本专利技术一些实施例中,矩阵运算的示意图
。
[0011]图5为本专利技术一些其他实施例中,变换器的示意图
。
[0012]图6为本专利技术一些实施例中,变换方法的流程本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于自回归模型的变换器,用于转换输入序列以产生输出序列,其特征在于,包含:编码器,用以对该输入序列编码以产生复数个中间向量;译码器,用以依据起始符号对该些中间向量译码以产生该输出序列,其中该输出序列包含
y1~
y
m
输出向量,其中
m
为正整数;及缓存器,用以存储该些
y1~
y
m
输出向量,其中该译码器包含:屏蔽式自注意力机制模块,用以依据该起始符号与该些
y1~
y
m
‑1输出向量执行屏蔽式自注意力机制运算以分别在对应的
t1~
t
m
时段依序产生
a1~
a
m
向量;交叉注意力机制模块,具有
W
q
矩阵
、W
k
矩阵与
W
v
矩阵,用以依据该
W
q
矩阵对该些
a1~
a
m
向量计算以分别取得
q1~
q
m
向量,以及依据该
W
k
矩阵与该
W
v
矩阵对该编码器产生的该些中间向量计算以分别取得
K
值与
V
值,并在对应的
t1~
t
m
时段分别对该
q1~
q
m
向量
、
该
K
值与该
V
值进行交叉注意力机制运算以产生
b1~
b
m
向量,其中该交叉注意力机制模块还用以将该些
b1~
b
m
向量
、
该
K
值与该
V
值存储在该缓存器,其中该
q1~
q
m
值为
1*N
维的向量,其中
N
为正整数;前馈类神经网络,用以在对应的该些
t1~
t
m
时段分别依据该些
b1~
b
m
向量以转化成
c1~
c
m
向量;正规化指数函数模块,用以在对应的
t1~
t
m
时段分别依据该些
c1~
c
m
向量产生
d1~
d
m
向量;及选择模块,用以依据该些
d1~
d
m
向量输出该些
y1~
y
m
输出向量
。2.
根据权利要求1所述的基于自回归模型的变换器,其中在该
t1时段中,该屏蔽式自注意力机制模块用以依据该起始符号执行该屏蔽式自注意力机制运算以产生该
a1向量,其中在该
t
n
时段中,该屏蔽式自注意力机制模块仅依据该
y
n
‑1输出向量执行该屏蔽式自注意力机制运算以产生该
a
n
向量,并将该
a
n
向量存储在该缓存器,其中
n
为小于或等于
m
的正整数,及其中在该
t
n
时段中,该屏蔽式自注意力机制模块不对该起始符号与该些
y1~
y
n
‑2值做该屏蔽式自注意力机制运算
。3.
根据权利要求1所述的基于自回归模型的变换器,其中在该
t
n
时段中,该交叉注意力机制模块依据该
W
q
矩阵对该
a
n
向量计算以取得该
q
n
向量,并仅对该
q
n
向量
、
该
K
值与该
V
值进行该交叉注意力机制运算以产生该
b
n
向量,其中在该
t
n
时段中,该交叉注意力机制模块不对该些
q1~
q
n
‑1向量做该交叉注意力机制运算,其中
n
为小于或等于
m
的正整数
。4.
根据权利要求3所述的基于自回归模型的变换器,其中在该
t
n
时段中,该前馈类神经网络仅转化该
b
n
向量以产生该
c
n
向量,并将该
c
n
向量存储在该缓存器
。5.
根据权利要求1所述的基于自回归模型的变换器,其中该译码器还包含:第一正规化模块,用以在该些
t1~
t
m
时段分别对该些
a1~
a
m
向量进行正规化;第二正规化模块,用以在该些
t1~
t
m
时段分别对该些<...
【专利技术属性】
技术研发人员:阮鸿辉,
申请(专利权)人:英属维京群岛商烁星有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。