一种文本分类方法技术

技术编号:33131256 阅读:69 留言:0更新日期:2022-04-17 00:48
本发明专利技术公开了一种文本分类方法,涉及文本智能处理领域,所述方法包括:构建第一文本分类模型;采集样本文本数据,对所述样本文本数据进行处理获得训练集;利用所述训练集训练所述第一文本分类模型获得第二文本分类模型;获得待分类文本数据,将所述待分类文本数据输入所述第二文本分类模型,所述第二文本分类模型输出所述待分类文本数据的分类结果;本方法能够提升对长文本的文本信息的提取效果。够提升对长文本的文本信息的提取效果。够提升对长文本的文本信息的提取效果。

【技术实现步骤摘要】
一种文本分类方法


[0001]本专利技术涉及文本智能处理领域,具体地,涉及一种文本分类方法。

技术介绍

[0002]随着移动互联网的不断发展,人们在日常生活中接触的信息不仅仅来源于电视报纸,更多的文本来自各大互联网网站以及网络平台。文本是重要的信息数据,信息时代的发展包含了大量的各领域的文本信息,基于文本内容能将大规模的信息资源中区分不同领域数据,提高信息检索、文本发掘等应用效率。然而,互联网文本数据正呈现爆炸式的增长,各领域文本的内容量大幅增加和复杂性提升,导致针对长文本甚至超长文本领域的文本分类成为一项发展难题。因此,近些年随着深度学习技术的研究深入,基于深度学习的文本分类方法层出不穷,针对各领域文本的内容多样性且数据信息复杂等,通过对文本数据中的特征进行提取,经过神经网络学习并进行分类,最终对文本进行多类别分类。
[0003]尽管深度学习方法在文本分类任务的研究取得显著的进步,但在构建模型时需要大量的标注数据,包含多个领域的文本数据信息,并且文本信息量也在逐渐大幅度增加,在各领域中长文本的形式也逐渐取代短文本提供更详细的信息,所以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:构建第一文本分类模型;采集样本文本数据,对所述样本文本数据进行处理获得训练集;利用所述训练集训练所述第一文本分类模型获得第二文本分类模型;获得待分类文本数据,将所述待分类文本数据输入所述第二文本分类模型,所述第二文本分类模型输出所述待分类文本数据的分类结果;其中,所述第一文本分类模型包括:输入层,所述输入层用于获得输入文本数据;Bert预训练模型,所述Bert预训练模型用于对所述输入文本数据进行编码获得词向量,基于所述词向量获得第一输入序列;卷积单元,所述卷积单元包括:第一池化层、第一至第k卷积块,k为大于1的整数,所述第一池化层用于对所述第一输入序列进行下采样处理获得第二输入序列;第一至第k卷积块依次连接,第一卷积块的输入为所述第二输入序列,所述第一卷积块的输出为第二卷积块的输入,...,第k

1卷积块的输出为第k卷积块的输入;第一至第k卷积块中的每个卷积块均包括一个卷积层和一个激活层,所述卷积层用于对输入所述卷积块的数据进行特征提取获得特征向量,所述激活层用于对所述特征向量进行激活处理;通过残差连接将所述第一池化层的输出和所述第k卷积块的输出叠加后输入第二池化层,所述第二池化层用于对叠加后的输入数据进行降维处理获得池化结果;全连接层,所述全连接层用于对所述池化结果进行分类并将分类结果传输至输出层;输出层,所述输出层用于输出所述输入文本的分类结果。2.根据权利要求1所述的图像处理方法,其特征在于,所述第一输入序列的长度为n,所述卷积层的卷积核大小为m,步长为s,在所述第一输入序列两端分别填补p个零所述卷积层的输出序列为(n

m+2p)/s+1。3.根据权利要求2所述的图像处理方法,其特征在于,所述卷积层中,s=1,m=250,所述卷积层的输出序列的长度为n。4.根据权利要求1所述的图像处理方法,其特征在于,所述第一池...

【专利技术属性】
技术研发人员:岳希周涛何磊唐聃高燕刘斌
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1