【技术实现步骤摘要】
一种针对词汇序列数据的综合位置编码方法
[0001]本专利技术涉及一种针对词汇序列数据的综合位置编码方法,属于自然语言处理
技术介绍
[0002]在自然语言处理任务中,最常见的作为输入的源数据单元为句子,或称为词汇的序列,是天生具备时间/空间/逻辑关系序列属性的。自然而然,在使用神经网络模型对序列进行处理时,人们最先想到了循环神经网络:一种具备对数据进行序列化处理能力的深度学习模型。但从语义分析的角度来看,词汇序列的处理不能完全按照空间顺序进行,因为词汇与词汇之间关系并不完全与它们在序列中的空间顺序一致对应,同时简单的循环神经网络无法处理长期依赖。LSTM、基于注意力的双向LSTM等深度学习模型被提出来应对这些问题。
[0003]进一步地,针对循环神经网络模型不可避免的高时间开销的问题,具有对数据进行并行化处理功能的卷积神经网络被引入到神经机器翻译领域用来对数据输入进行处理;与此同时,注意力机制的发现,对于提高神经机器翻译模型的性能表现起到了重要作用,其中,通过融入编码器/解码器自注意力机制和编码器与解码器 ...
【技术保护点】
【技术特征摘要】
1.一种针对词汇序列数据的综合位置编码方法,其特征在于:包括如下步骤:通过在实数空间随机采样生成三组词典:源输入和目标输入的词汇编码词典通过在实数空间随机采样生成三组词典:源输入和目标输入的词汇编码词典源输入和目标输入的绝对位置编码词典源输入和目标输入的相对位置编码键位词典和相对位置编码值位词典其中,l
src
和l
tgt
分别表示源输入词汇编码词典和目标输入词汇编码词典的大小,下标src、tgt分别代表源输入、目标输入,下标src:K、tgt:K分别代表源输入键位、目标输入键位,下标src:V、tgt:V分别代表源输入值位、目标输入值位,dim为每个特征向量的长度,max_len表示数据中源输入和目标输入中出现过的最长的序列长度,k表示任意两个词汇计算相对位置时允许的最大距离;根据输入中的词汇查找到词汇编码词典VOC
src
、VOC
tgt
中对应的特征向量x
i
、y
i
,组成源输入和目标输入词汇特征向量组:X
len(src)
×
dim
=[x1,x2…
x
len(src)
‑1,end]Y
len(tgt)
×
dim
=[start,y1…
y
len(tgt)
‑1]len(src)
‑
1和len(tgt)
‑
1分别表示源输入和目标输入的长度,end和start分别表示语句的结束和开始向量;在绝对位置词典VOC_PO
src
、VOC_PO
tgt
中分别截取前len(src)和len(tgt)行,生成源输入和目标输入绝对位置特征向量组:入和目标输入绝对位置特征向量组:将以上数据输入Transformer模型进行训练,得到训练好的Transformer模型。2.根据权利要求1所述的一种针对词汇序列数据的综合位置编码方法,其特征在于:将以上数据输入Transformer模型进行训练,得到训练好的Transformer模型,具体包括如下步骤:S3
‑
1:对Transformer模型N层编码器进行训练,其中,第i层编码器一端的输入如下:1:对Transformer模型N层编码器进行训练,其中,第i层编码器一端的输入如下:1:对Transformer模型N层编码器进行训练,其中,第i层编码器一端的输入如下:其中,W
i1Q
,W
i1K
,W
i1V
是编码器中的参数矩阵,b
i1Q
,b
i1K
,b
i1V
是编码器中的参数向量,X
i
‑1为第i
‑
1层的编码器的输出;第i层编码器另一端输出如下:第i层编码器另一端输出如下:其中,W
i2
,W
i3
为参数矩阵,b
i2
,b
i3
为参数向量;X
i
为第i层的编码器的输出;当i=0时:
X0=X+PO
src
其中,X为源输入词汇特征向量组,PO
src
为源输入绝对位置特征向量组,X0第1层编码器一端的输入;S3
‑
2:对Transformer模型N层解码器进行训练,其中,第i层解码器一端的输入如下:2:对Transformer模型N层解码器进行训练,其中,第i层解码器一端的输入如下:2:对Tra...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。