System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种快速小样本多层次分类方法及器件技术_技高网
当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种快速小样本多层次分类方法及器件技术

技术编号:40780454 阅读:4 留言:0更新日期:2024-03-25 20:24
本发明专利技术公开了一种快速小样本多层次分类方法及器件。首先对文本小样本原始数据进行预处理得到预处理数据集;接着对预处理数据集中文本数据进行层级标签化处理得到一维标签矩阵,之后,再对预处理数据集中的文本数据使用独热编码进行编码初始化得到文本二维矩阵,将上述的一维标签矩阵和文本二维矩阵存入复合数组,得到复合数组集,并按8:2划分复合数组集得到训练集和验证集;构造MLF混合损失函数;将训练集输入损失函数为MLF的M2AM模块进行训练;之后将验证集作为训练后的M2AM模块输入,使用快停法控制训练效率,最终生成一种快速小样本多层次分类器。本发明专利技术在实际文本分类任务中不仅比现有技术提升了2%的准确率,同时还使分类的效率提高了3倍。

【技术实现步骤摘要】

本专利技术属于多层次、小样本文本分类,特别涉及一种快速小样本多层次分类方法及器件


技术介绍

1、文本分类技术在现实生活中有广泛的应用,文本分类模型也多种多样,包括传统的机器学习方法和现阶段流行的深度学习方法,如快速文本分类(fasttext),卷积神经网络文本分类(textcnn),循环神经网络文本分类(textrnn),层次注意力网络文本分类(han),bert等。不同的分类模型有不同的侧重点,但是这些模型往往需要大量的标注样本。就目前大量的实验和工作证明,数据量的大小直接影响学习的性能。主要原因是由于传统的文本分类模型都是建立在具有大量的标签数据下的有监督学习。在使用深度学习器加以训练时,由于模型相对于样本数量过度复杂,模型参数过多,导致无法覆盖基本特征而产生了过拟合现象。这就导致这些模型在百万级数据集的情况下效果较好,但是在只有十万级样本的情况下效果极差。

2、而往往在大多数时候,寻找数据需要花费相当多的时间,在很多实际的项目中难以找到充足的数据来完成任务。这时就需要能从小样本数据中学习模型来解决文本分类的问题。

3、另外,由于小样本学习的特殊性,需要学习到不同的类别间共性部分和类别变化的情况下模型的泛化能力,所以传统的基于样本与类别对的文本分类数据集不能直接应用于小样本学习任务的训练和测试。

4、文本编码是文本分类的基础,本专利技术使用的编码方式为独热编码,是最常用的方法之一,它将每个离散属性的每个类别创建一个新的二进制特征。对于每个样本,只有一个二进制特征为1,表示它属于对应的类别,其他特征为0。这种方法适用于具有有限数量的类别。

5、在论文wu z,jiang d,wang j,et al.mining toxicity information fromlarge amounts oftoxicity data[j].journal ofmedicinal chemistry,2021,64(10):6924-6936.中使用了两层rgcn连接一个注意力权重层及三个全连接层的模型mga,在各个毒性数据集上都取得了良好的分类效果,但在小样本文本数据集上的表现欠缺,同时训练模型需要一小时三分钟,较之本专利技术耗时多了四十三分钟。

6、在论文ouyang x,wang s,pang c,et al.ernie-m:enhanced multilingualrepresentation by aligning cross-lingual semantics with monolingual corpora[c]//proceedings of the 2021conference on empirical methods in naturallanguage processing.2021:27-38.中ernie-m预训练模型在多层次分类中取得了良好的分类效果,但在小样本文本数据集上的表现欠佳,同时在小样本文本数据集中训练模型需要一小时二十分钟,较之本专利技术耗时多了一小时。


技术实现思路

1、专利技术目的:针对上述问题,本专利技术公开了一种快速小样本多层次分类方法及器件,结合rgcn、rnn、注意力权重、混合损失函数及快停法实现小样本多层次分类。

2、技术方案:本专利技术公开了一种快速小样本多层次分类方法,包括如下步骤:

3、步骤(1)对文本小样本原始数据进行预处理得到预处理数据集oridata;

4、步骤(2)对预处理数据集oridata中文本数据进行层级标签化处理得到一维标签矩阵,然后再对预处理数据集oridata中的文本数据使用独热编码进行编码初始化得到文本二维矩阵,将一维标签矩阵和文本二维矩阵存入复合数组,由此得到复合数组集dataall,按8:2划分dataall得到训练集traindata和验证集valdata;

5、步骤(3)构造mlf混合损失函数;

6、步骤(4)将训练集traindata输入损失函数为mlf的m2am模块进行训练;

7、步骤(5)将验证集valdata作为训练后的m2am模块输入,使用快停法控制训练效率,若不满足快停法终止条件则继续执行步骤(4)训练步骤,若满足,则停止训练,得到一种快速小样本多层次分类器。

8、进一步地,所述步骤1中文本小样本本原始数据预处理操作包括如下:

9、(1.1)对文本小样本原始数据去重、去空得到预处理数据集oridata,预处理数据集oridata为文本数据集,预处理数据集oridata数据量为p,p∈n+;

10、(1.2)设预处理数据集oridata共有g个层次,g∈n+,其层次为m1,m2,…,my,…,mg,y∈n+,y≤g,my为第y个层次,设my层有cy个分类,cy∈n+,my层类别为设c1+c2+…+cy+…+cg=s,s为分类类别总数,即,预处理数据集oridata为g个层次共s个分类。

11、进一步地,所述步骤(2)中具体步骤如下:

12、(2.1)设预处理数据集oridata={word1,word2,…,wordm,…,wordp},oridata中第m条数据为wordm,m∈n+,m≤p,定义wordm对应的一维标签矩阵为labelm,labelm的长度为s,labelm每一列代表从my1到分类中的一个标签类,wordm属于my1到分类中哪一个类就在labelm中该类对应列标注“1”,反之则为“0”;

13、(2.2)对预处理数据集oridata中第m条文本数据wordm使用独热编码生成二进制编码,得到文本二维矩阵textm,将labelm和textm存入复合数组,得到复合数组datam,datam=[labelm,textm],m∈n+,m≤p,由此得到复合数组集dataall,dataall={data1,data2,…,datam,…,datap},datam为dataall的第m条数据,dataall为文本与标签混合数据集;

14、(2.3)对复合数组集dataall中s个分类,按照每个分类的数据均抽取其中80%乱序加入训练集traindata,剩余20%乱序加入验证集valdata,训练集traindata和验证集valdata均为文本与标签混合数据集;

15、进一步地,所述步骤(3)中构造mlf混合损失函数,具体步骤如下:

16、(3.1)定义二分类损失函数为损失函数loss1,相对熵损失函数为损失函数loss2;

17、(3.2)定义mlf混合损失函数为mlfloss=0.9*loss1+0.1*loss2。

18、进一步地,所述步骤(4)中将训练集traindata输入损失函数为mlf的m2am模块进行训练的具体步骤如下:

19、(4.1)定义m2am模块为mmml子模块串联atcl子模块构成;

20、(4.2)定义mmml子模块由两个相同的神本文档来自技高网...

【技术保护点】

1.一种快速小样本多层次分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤1中文本小样本本原始数据预处理操作包括如下:

3.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(2)中具体步骤如下:

4.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(3)中构造MLF混合损失函数,具体步骤如下:

5.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(4)中将训练集TrainData输入损失函数为MLF的M2AM模块进行训练的具体步骤如下:

6.根据权利要求5所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(5)具体步骤如下:

7.一种快速小样本多层次分类器件,其特征在于,包括一个通过权利要求1至6任一所述的一种快速小样本多层次分类方法训练得到的一种快速小样本多层次分类器。

【技术特征摘要】

1.一种快速小样本多层次分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤1中文本小样本本原始数据预处理操作包括如下:

3.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(2)中具体步骤如下:

4.根据权利要求1所述的一种快速小样本多层次分类方法,其特征在于,所述步骤(3)中构造mlf混合损失函数,具体步骤如下:

...

【专利技术属性】
技术研发人员:朱全银史宇泉刘楚涵申永康石超楠倪天龙侯静柔王翔云
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1