一种终身学习的文本分类方法及系统技术方案

技术编号:33477301 阅读:18 留言:0更新日期:2022-05-19 00:52
本发明专利技术提供了一种终身学习的文本分类方法及系统,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型;设置存储记忆;以存储记忆,根据重放频率与存储率,对终身学习模型使用稀疏经验重放的方式进行微调,对终身学习模型进行再次微调,进而使用终身学习模型对输入的文本进行预测输出,实现了:首先,降低时间复杂度从而节省了训练时间,同时,提高文本分类准确率并缓解灾难性遗忘的有益效果。并缓解灾难性遗忘的有益效果。并缓解灾难性遗忘的有益效果。

【技术实现步骤摘要】
(Gradient Episodic Memory)以及改进的AGEM方法,它们会在执行经验重放同时使用正则化方法对参数添加惩罚项进行约束来更新梯度。

技术实现思路

[0006]本专利技术的目的在于提出一种终身学习的文本分类方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0007]终身学习文本分类模型,能够在所需存储样本数更少的条件下,用训练好的模型预测训练集的样本,选择预测对的样本,分别对每个类样本特征集进行聚类,采用对训练时的旧样本变化特征来拟合其存储的特征,进入训练与再微调阶段时,采用不同损失函数来拟合特征,以缓解灾难性遗忘。
[0008]本专利技术提供了一种终身学习的文本分类方法及系统,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型;设置存储记忆;以存储记忆,根据重放频率与存储率,对终身学习模型使用稀疏经验重放的方式进行微调,对终身学习模型进行再次微调,进而使用终身学习模型对输入的文本进行预测输出。
[0009]为了实现上述目的,根据本专利技术的一方面,提供一种终身学习的文本分类方法,所述方法包括以下步骤:S100,输入任务序列,任务序列由多个不同的任务组成;S200,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型;S300,设置重放频率与存储率;S400,其中包括:设置存储记忆;以存储记忆,根据重放频率与存储率,对终身学习模型使用稀疏经验重放的方式进行微调;对终身学习模型进行再次微调;S500,使用终身学习模型对文本内容进行预测输出。
[0010]进一步地,在S100中,输入任务序列,任务序列由多个不同的任务组成的方法具体为:其中,任务序列中每个任务由训练集、校验集和测试集组成,训练集、校验集和测试集皆为由多个训练样例组成的集合,一个训练样例为由一个表示较长的文本的字符串记作文本内容与一个较短的表示标签的字符串记作类别标签组成的一个二元数组,训练终身学习模型根据训练样例中的文本内容预测输出类别标签。
[0011]进一步地,在S200中,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型的方法具体为:记任务序列为序列T,任务序列中元素的数量为n,任务序列中元素的序号为i,i∈[1,n],任务序列中序号为i的元素为任务Ti,任务Ti中的训练集为Si,任务Ti中的校验集为Vi,任务Ti中的测试集为Testi,其中,Si中训练样例的数量记为n(i),Si中训练样例的序号记为t(i),t(i)∈[1, n(i)],Si中序号记为t(i)的训练样例记为Si(t(i)),Si(t(i))中包含的文本内容记作xi(t(i)),xi(t(i))对应的类别标签记作yi(t(i)),Ni表示任务Ti中包含的类别标签的种类的数量;其中,将任务序列中所有的任务包含的训练样例作为全部数据即全部的的训练样例,全部的的训练样例分成多份,其中的一份作为一个batch,以一个batch为单位输入到终身学习模型进行训练,终身学习模型将所有batch训练完一遍成为一个epoch即一轮,训练
一个 epoch表示终身学习模型训练完全部数据一轮,epoch的数值可以用来表示训练了多少轮;终身学习模型每训练完一个batch后,可以从batch中随机抽样出部分或全部的训练样例进行预测,即让终身学习模型根据训练样例中的文本内容预测输出类别标签并检查预测输出的类别标签是否正确并以此计算准确率;每个任务Ti中的训练样例被分成训练集、校验集和测试集,即在一个任务中存在部分的训练样例属于训练集、同时部分的训练样例属于校验集、还有部分的训练样例属于测试集,训练集、校验集和测试集的划分是在对模型进行训练之前已经划分的,各个任务中的属于训练集的训练样例组成了全部的的训练样例中的训练集,各个任务中的属于校验集的训练样例组成了全部的的训练样例中的校验集,各个任务中的属于测试集的训练样例组成了全部的的训练样例中的测试集,其中,训练集的数据用于对模型进行训练,校验集和测试集中的数据可以用于让终身学习模型根据训练样例中的文本内容预测输出类别标签并检查预测输出的类别标签是否正确并计算准确率;终身学习模型根据训练样例中的文本内容预测输出类别标签并检查预测输出的类别标签是否正确,其中正确的则称为正确预测输出类别标签;所述预训练语言模型为具有12层Transformer的预训练语言模型BERT

base

uncased,记函数RepresentX()为使用所述预训练语言模型作为特征提取器进而在所述预训练语言模型的第12个Transformer层提取的第一个token的嵌入向量作为输出的函数,RepresentX(xi(t(i)))表示将xi(t(i))输入函数RepresentX()获得的嵌入向量,令嵌入向量fi(t(i))= RepresentX(xi(t(i))),所述嵌入向量皆为v维的向量,所述嵌入向量中维度的序号皆记为k,k∈[1,v];其中,以所述预训练语言模型作为文本分类模型的方法具体为,进而将xi(t(i))输入到函数RepresentX()获得fi(t(i))后再经一个具有Softmax函数的全连接层进行分类,即把具有Softmax函数的全连接层能正确得到yi(t(i))的概率值作为分类的概率值并输出,由此,把任一文本内容输入函数RepresentX()再经所述一个具有Softmax函数的全连接层得到分类的概率值的处理过程记作函数p(),并把xi(t(i))经过所述函数p()得到的输出记为p(t(i));以所述预训练语言模型作为文本分类模型,使用任务序列中的各个任务输入所述预训练语言模型中进行模型训练,训练后的模型即为终身学习模型。
[0012]进一步地,在S300中,重放频率的初始值设置为100,存储率的初始值取值范围为[0.1,0.2]。
[0013]进一步地,在S400中,设置存储记忆的方法为:记存储记忆为Memory,存储记忆为一个具有互异性的集合,存储记忆的初始值为空集;其中,在存储记忆中添加元素的方法为:存储记忆中的一个元素称为一个存储样本,其中,使用任务序列对终身学习模型训练,当终身学习模型训练完5个epoch,每个epoch执行完全部batch数据(即一个epoch为终身学习模型训练完一遍所有的训练样例)之后,终身学习模型对训练样例中的文本内容进行预测输出其对应的类别标签,再收集正确预测输出类别标签的训练样例,将正确预测输出类别标签的训练样例中的每一个文本内容通过函数RepresentX()得到对应的嵌入向量,将正确预测输出类别标签的训练样例按照其中包含的不同的类别标签的数目分为类别标签的数目个集合,在每个集合中,使用各个训练样
例文本内容对应的嵌入向量构成该集合的特征集,进而利用聚类算法对特征集聚类得到多个聚类中心,计算各个训练样例文本内容的嵌入向量与每个聚类中心的欧氏距离从而筛选出离各个聚类中心距离最近的训练样例,具体为:其中,将正确预测输出类别标签的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种终身学习的文本分类方法,其特征在于,所述方法包括以下步骤:S100,输入任务序列,任务序列由多个不同的任务组成;S200,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型;S300,设置重放频率与存储率;S400,其中包括:设置存储记忆;以存储记忆,根据重放频率与存储率,对终身学习模型使用稀疏经验重放的方式进行微调;对终身学习模型进行再次微调;S500,使用终身学习模型对文本内容进行预测输出。2.根据权利要求1所述的一种终身学习的文本分类方法,其特征在于,在S100中,输入任务序列,任务序列由多个不同的任务组成的方法具体为:其中,任务序列中每个任务由训练集、校验集和测试集组成,训练集、校验集和测试集皆为由多个训练样例组成的集合,一个训练样例为由一个表示较长的文本的字符串记作文本内容与一个较短的表示标签的字符串记作类别标签组成的一个二元数组。3.根据权利要求2所述的一种终身学习的文本分类方法,其特征在于,在S200中,以预训练语言模型作为文本分类模型,并使用任务序列对文本分类模型进行训练得到终身学习模型的方法具体为:记任务序列为序列T,任务序列中元素的数量为n,任务序列中元素的序号为i,i∈[1,n],任务序列中序号为i的元素为任务Ti,任务Ti中的训练集为Si,任务Ti中的校验集为Vi,任务Ti中的测试集为Testi,其中,Si中训练样例的数量记为n(i),Si中训练样例的序号记为t(i),t(i)∈[1, n(i)],Si中序号记为t(i)的训练样例记为Si(t(i)),Si(t(i))中包含的文本内容记作xi(t(i)),xi(t(i))对应的类别标签记作yi(t(i)),Ni为任务Ti中包含的类别标签的种类的数量;所述预训练语言模型为具有12层Transformer的预训练语言模型BERT

base

uncased,记函数RepresentX()为使用所述预训练语言模型作为特征提取器进而在所述预训练语言模型的第12个Transformer层提取的第一个token的嵌入向量作为输出的函数,RepresentX(xi(t(i)))表示将xi(t(i))输入函数RepresentX()获得的嵌入向量,令嵌入向量fi(t(i))= RepresentX(xi(t(i))),所述嵌入向量皆为v维的向量,所述嵌入向量中维度的序号皆记为k,k∈[1,v];其中,以所述预训练语言模型作为文本分类模型的方法具体为,进而将xi(t(i))输入到函数RepresentX()获得fi(t(i))后再经一个具有Softmax函数的全连接层进行分类,即把具有Softmax函数的全连接层能正确得到yi(t(i))的概率值作为分类的概率值并输出,由此,把任一文本内容输入函数RepresentX()再经所述一个具有Softmax函数的全连接层得到分类的概率值的处理过程记作函数p(),并把xi(t(i))经过所述函数p()得到的输出记为p(t(i));以所述预训练语言模型作为文本分类模型,使用任务序列中的各个任务输入所述预训练语言模型中进行模型训练,训练后的模型即为终身学习模型。4.根据权利要求3所述的一种终身学习的文本分类方法,其特征在于,在S300中,重放频率的初始值设置为100,存储率的初始值取值范围为[0.1,0.2]。5.根据权利要求3所述的一种终身学习的文本分类方法,其特征在于,在S400中,设置
存储记忆的方法为:记存储记忆为Memory,存储记忆为一个具有互异性的集合,存储记忆的初始值为空集;其中,在存储记忆中添加元素的方法为:存储记忆中的一个元素称为一个存储样本,使用任务序列对终身学习模型训练,当终身学习模型训练完5个epoch之后,终身学习模型对训练样例中的文本内容进行预测输出其对应的类别标签,再收集正确预测输出类别标签的训练样例,将正确预测输出类别标签的训练样例中的每一个文本内容通过函数RepresentX()得到对应的嵌入向量,将正确预测输出类别标签的训练样例按照其中包含的不同的类别标签的数目分为类别标签的数目个集合,在每个集合中,使用各个训练样例文本内容对应的嵌入向量构成该集合的特征集,进而利用聚类算法对特征集聚类得到多个聚类中心,计算各个训练样例文本内容的嵌入向量与每个聚类中心的欧氏距离从而筛选出离各个聚类中心距离最近的训练样例,具体为:其中,将正确预测输出类别标签的训练样例中包含的不同的类别标签的数目记为ni,记任务序列中总共包含的训练样例的数量为Num,记存储率为C,记在每个集合中使用聚类算法所需聚类的中心数量为m,有m=Num*C/ni,则在每个集合中通过计算训练样例中文本内容对应的嵌入向量与聚类中心的欧氏距离进而以聚类算法筛选出离各个聚类中心距离最近的训练样例后,从每个集合中取了m个训练样例及其嵌入向量作为m个存储样本加入到Memory中,以任务Ti中的任一个训练样例记作Si(t(i)),以该训练样例Si(t(i))中包含的文本内容xi(t(i))通过函数RepresentX()得到的嵌入向量记作fi(t(i)),每一个存储样本由一个训练样例以及该训练样例中的文本内容通过函数RepresentX()得到的嵌入向量组成。6.根据权利要求5所述的一种终身学习的文本分类方法,其特征在于,在S400中,设置存储记忆;以存储记忆,根据重放频率与存储率,对终身学习模型使用稀疏经验重放的方式进行微调的方法具体为:S401,获取训练序列为T;获取存储记忆为Memory;设置重放频率为β;设置存储率为C;设置变量Accuracy表示终身学习模型在校验集上进行校验得到的准确率,令Accuracy的初始值为0;设置变量m表示聚类数;S402,获取终身学习模型为M;令变量epoch为表示终身学习模型训练完整个数据集的轮数;S403,设置任务序列T中元素的序号为i,令i的初始值为1;S404,获取任务序列中序号为i的任务Ti;S405,以任务Ti的训练数据集Si对终身学习模型进行训练前,将训练数据集Si分为多个批次,其中任务Ti分为的多个批次的数量记为m(i),各个批次的序号记作j(i),j(i)∈[1,m(i)],将序号为j(i)的批次记作batch(j(i)),batch(j(i))中训练样例的数量记为n(j(i)),batch(j(i))中训练样例的序号记为t(j(i)),t(j(i))∈[1,n(j(i))],batch(j(i))中序号记为t(j(i))的训练样例记为batch(t(j(i))),batch(t(j(i)))中包含的文本内容记作xi(t(j(i))),把文本内容xi(t(j(i)))通过函数p()得到的输出记作p(xi(t(j(i))));S406,令epoch的数值的初始值为1,判断Ti的序号i的数值是否等于1,若是则以第一拟合度对终身学习模型进行拟合,若否则进行稀疏经验重放并进行微调,具体过程如下:
S406

1,令j(i)的初始值为1;S406...

【专利技术属性】
技术研发人员:孔蕾蕾彭泽阳齐浩亮韩咏韩中元
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1