【技术实现步骤摘要】
一种长文本分类方法、装置、电子设备和可读存储介质
[0001]本专利技术涉及人工智能
,具体而言,涉及一种长文本分类方法、装置、电子设备和可读存储介质。
技术介绍
[0002]文本分类任务就是通过自然语言处理技术对文本进行归纳整理,挖掘文本深层信息。相关技术中对长文本的分类,尤其是医学宣教长文本内容的分类,存在一些不足。传统文本分类模型大多是面向单标签的文本分类,显然,对于宣教内容分类这种多标签文本分类问题,传统的单标签文本分类模型已经不再适用。多标签文本分类算法能够解决大多数的分类问题,目前大致可以分为两大类:基于传统机器学习的方法和基于神经网络的方法。传统机器学习的方法,如:二元关联算法(Binary Relevance,BR)是把多标签文本分类看成多个单标签分类的问题,对每个标签使用单标签分类算法。但是BR算法未能考虑标签之间的相互关系,分类过程中可能会导致一定的信息损失。相关技术考虑了多标签中标签之间的正负相关性,引入K近邻(K
‑
nearest neighbor,KNN)算法。本领域技术人员 ...
【技术保护点】
【技术特征摘要】
1.一种长文本分类方法,其特征在于,所述长文本分类方法包括:将长文本内容输入到ALBERT特征表示层,对所述长文本内容进行编码,提取分词特征;使用损失函数L(y,o)训练DPCNN层,所述DPCNN层对所述分词特征进行深层次的语义特征学习和提取,输出分类数据;根据所述分类数据对不同的分类类别进行排序,得到最终的分类结果。2.根据权利要求1所述的长文本分类方法,其特征在于,所述对所述长文本内容进行编码,具体包括:所述ALBERT特征表示层使用Transformer双向编码器对所述长文本内容的字符进行编码。3.根据权利要求1所述的长文本分类方法,其特征在于,所述将长文本内容输入到ALBERT特征表示层,具体包括:所述ALBERT特征表示层的输入向量包括E1,E2,
…
,Em;所述ALBERT特征表示层的输出向量包括T1,T2,
…
,Tm;其中,m为所述长文本的字符数量。4.根据权利要求1所述的长文本分类方法,其特征在于,所述DPCNN层对所述分词特征进行深层次的语义特征学习和提取,具体包括:所述DPCNN层通过卷积层与池化层学习和提取所述分词特征的深层次的语义特征,所述卷积层包括:Conv_0、Conv_1、Conv_2、Conv_3和Conv_4。5.根据权利要求4所述的长文本分类方法,其特征在于,所述Conv_0为融合多尺度的Region Embedding层,所述Conv_0的卷积核大小包括2*2、3*3、4*4、5*5、6*6、7*7和8*8,不同大小的卷积核的个数均...
【专利技术属性】
技术研发人员:徐波雷,忻超,
申请(专利权)人:宁波大学医学院附属医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。