基于注意力空间划分的数据增强处理方法技术

技术编号:38562944 阅读:7 留言:0更新日期:2023-08-22 21:02
本发明专利技术涉及数据增强技术领域,具体为基于注意力空间划分的数据增强处理方法,包括以下步骤:S1原始训练数据预处理;S2将文本向量T输入到词嵌入层,获得嵌入向量X∈R

【技术实现步骤摘要】
基于注意力空间划分的数据增强处理方法


[0001]本专利技术涉及数据增强
,具体为基于注意力空间划分的数据增强处理方法。

技术介绍

[0002]近年来,深度学习技术在各个行业发挥日益重要的作用,大幅提高人们的便捷程度与体验感。医疗行业内的智能病例自动生成,法律咨询行业的自动问答辅助机器,工厂内的智慧巡检机器人,交通管理领域内的自动车牌识别与轨迹分析,各式各样的智能服务被提供出来。数据作为深度学习模型训练的基石,为模型训练提供训练样本及各类特征,数据质量直接决定了深度学习模型的性能与泛化能力。
[0003]现有技术中,有监督学习任务需要大批量已标注数据,但对现实数据进行标注,需要花费大量人力与物力,在这一背景下,数据增强方法应运而生。数据增强方法是在现有数据量的基础上,通过原始数据之间的变换、组合等各种方式,增加原始数据的各类属性,为神经网络输送更多的特征。按照训练任务的不同,数据增强方法可以分为图像领域的数据增强方法与文本领域的数据增强方法。图像领域的数据增强方法主要包含以下:图像变换方法,例如图像的翻转、裁剪、缩放等,初始图像变换是一种基础的数据增强方法,适用面广泛,但需注意图像失真的问题。颜色变换方法,例如向图片中添加噪声、模糊处理、图像颜色空间变换、图像边界填充等,该类方法将图像自身的属性改变,进而扩大数据特征。样本邻域方法,例如Smote、Mixup等方法,该类方法通过在样本的邻域内,对多个样本进行插值、最近邻等各种处理,生成新的图像样本,该类方法考虑到多个样本之间的交叉关系,提升了样本的多样性。文本领域的数据增强方法主要包含如下:字词层次的文本增强,例如字词的插入、交换、删除以及同义词替换等,该类方法利用现实世界的语言知识,针对性的对原始样本进行扩充。语义层次的文本增强,例如语言回译技术、文本对抗技术等,该类方法将语句作为一个整体,对语句的具体含义进行处理。除此之外,还有一些方法适用于文本、图像两个领域,例如Mixup方法、Rdrop方法等。

技术实现思路

[0004]本专利技术的目的在于提供基于注意力空间划分的数据增强处理方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:基于注意力空间划分的数据增强处理方法,所述数据增强处理方法包括以下步骤:
[0006]S1.获取原始训练数据,并进行预处理;
[0007]S2.将文本向量T输入到词嵌入层,获得嵌入向量X∈R
L
×
E

[0008]S3.将向量数据输入到主干网络,获得文本特征向量;
[0009]S4.将特征向量输入到注意力网络,利用多头注意力网络之间的差异性,进行语义空间划分,通过空间的交叉组合,得到两个合并空间的语义向量A
z
、A
e
与文本向量O∈R
L
×
C

[0010]S5.将文本向量O依次输入到Maxpooling层、线性分类层中,计算出分类类别的交叉熵损失;
[0011]S6.利用合并空间语义向量的趋同性质,计算出关联损失与模型总损失,利用随机梯度下降法进行模型参数更新;
[0012]S7.在训练阶段,输入文本与分类标签,分别计算出交叉熵损失与关联损失,按照步骤S5与步骤S6中方法进行参数的更新,在预测阶段,输入文本,输出文本的多分类标签预测结果。
[0013]优选的,获取原始训练数据,并进行预处理时,对给定的原始文本,设定字符的最大长度为L,不足的部分进行“padding”补全,所生成的文本向量T维度为R
L
,设定文本分类的标签为label,分类标签的维度为R2,其中R表示实数空间,L为正整数。
[0014]优选的,将向量数据输入到主干网络,获得文本特征向量时,自然语言处理领域内,选择预训练语言模型作为主干网络,例如Bert、XLNet、Transformer神经网络,选择Transformer的Encoder部分作为主干网络,输出维度保持不变,将嵌入向量X输入到主干网络中,获得文本特征向量Y,Y的维度为R
L
×
E

[0015]Y=Encoder(X)。
[0016]优选的,步骤S4中,具体做法如下:
[0017]S4.1将文本特征向量输入到线性网络层,做线性变换,获得向量Q、K与V,三者维度均为R
L
×
E

[0018]Q=W
Q
Y
[0019]K=W
K
Y
[0020]V=W
V
Y
[0021]其中W
Q
、W
K
与W
V
为线性变换矩阵,维度均为R
E
×
E

[0022]S4.2将步骤S4.1中向量Q沿着最后一个维度E,均分为N个子空间,每个子空间的维度为R
L
×
M
,即使得
[0023]Q={Q1,Q2,

,Q
N
}
[0024]其中Q
i
∈R
L
×
M
,1≤i≤N。所选取的子空间个数N需满足整除E,即M=E/N为正整数,且空间个数N>1,
[0025]针对步骤S4.1中的向量K与V,做类似处理,可以得到{K1,K2,

,K
N
}与{V1,V2,

,V
N
};
[0026]S4.3对于Q
i
、K
i
与V
i
,1≤i≤N,利用注意力机制,计算该部分的输出
[0027][0028]A={A1,A2,

,A
N
}
[0029]上式中,向量间运算为矩阵乘积,A
i
的维度为R
L
×
M
,A表示N个注意力网络输出向量的集合,
[0030]对于一系列变量{x1,x2,

,x
n
},softmax函数的定义如下
[0031][0032]其中1≤i,j≤n;
[0033]S4.4利用注意力机制多头子空间的差异性,得到合并空间的语义向量;
[0034]S4.4.1首先设定α=[0.8*N],随机生成1至N之间的α个正整数且不重复,[.]表示取整函数,
[0035]上述过程重复两次,这里将α个正整数表示为索引序列{z1,z2,

,z
α
}与{e1,e2,

,e
α
};
[0036]S4.4.2从步骤S4.3中注意力网络的输出{A1,A2,

,A
N...

【技术保护点】

【技术特征摘要】
1.基于注意力空间划分的数据增强处理方法,其特征在于:所述数据增强处理方法包括以下步骤:S1.获取原始训练数据,并进行预处理;S2.将文本向量T输入到词嵌入层,获得嵌入向量X∈R
L
×
E
;S3.将向量数据输入到主干网络,获得文本特征向量;S4.将特征向量输入到注意力网络,利用多头注意力网络之间的差异性,进行语义空间划分,通过空间的交叉组合,得到两个合并空间的语义向量A
z
、A
e
与文本向量O∈R
L
×
C
;S5.将文本向量O依次输入到Maxpooling层、线性分类层中,计算出分类类别的交叉熵损失;S6.利用合并空间语义向量的趋同性质,计算出关联损失与模型总损失,利用随机梯度下降法进行模型参数更新;S7.在训练阶段,输入文本与分类标签,分别计算出交叉熵损失与关联损失,按照步骤S5与步骤S6中方法进行参数的更新,在预测阶段,输入文本,输出文本的多分类标签预测结果。2.根据权利要求1所述的基于注意力空间划分的数据增强处理方法,其特征在于:获取原始训练数据,并进行预处理时,对给定的原始文本,设定字符的最大长度为L,不足的部分进行“padding”补全,所生成的文本向量T维度为R
L
,设定文本分类的标签为label,分类标签的维度为R2,其中R表示实数空间,L为正整数。3.根据权利要求1所述的基于注意力空间划分的数据增强处理方法,其特征在于:获得嵌入向量X∈R
L
×
E
时,R表示实数空间,E为正整数。4.根据权利要求1所述的基于注意力空间划分的数据增强处理方法,其特征在于:将向量数据输入到主干网络,获得文本特征向量时,自然语言处理领域内,选择预训练语言模型作为主干网络,例如Bert、XLNet、Transformer神经网络,选择Transformer的Encoder部分作为主干网络,输出维度保持不变,将嵌入向量X输入到主干网络中,获得文本特征向量Y,Y的维度为R
L
×
E
,Y=Encoder(X)。5.根据权利要求1所述的基于注意力空间划分的数据增强处理方法,其特征在于:步骤S4中,具体做法如下:S4.1将文本特征向量输入到线性网络层,做线性变换,获得向量Q、K与V,三者维度均为R
L
×
E
,Q=W
Q
YK=W
K
YV=W
V
Y其中W
Q
、W
K
与W
V
为线性变换矩阵,维度均为R
E
×
E
;S4.2将步骤S4.1中向量Q沿着最后一个维度E,均分为N个子空间,每个子空间的维度为R
L
×
M
,即使得Q={Q1,Q2,

,Q
N
}其中Q
i
∈R
L
×
M
,1≤i≤N,所选取的子空间个数N需满足整除E,即M=E/N为正整数,且空间个数N>1,针对步骤S4.1中的向量K与V,做类似处理,可以得到{K1,K2,

,K
N
}与{V1,V2,

,V
N
};
S4.3对于Q
i
、K
i
与V
i
,1≤i≤N,利用注意力机制,计算输出A={A1,A2,

,A
N
}上式中,向量间运算为矩阵乘积,A
i
的维度为R
L
×
M
...

【专利技术属性】
技术研发人员:何彬彬潘心冰伊文超朱利霞李旭东
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1