一种基于抽取式的文本分类方法技术

技术编号：38023508 阅读：9 留言：0更新日期：2023-06-30 10:50

本发明专利技术公开了一种基于抽取式的文本分类方法，涉及到文本分类技术领域，包括S1：样本构造；S2：基于深度预训练模型的实体识别。本发明专利技术把文本分类任务转化成实体识别任务，通过实体识别模型从文本中抽取文本的类别标签，把多种类型的文本分类任务转化成统一的实体识别任务，避免了传统方法需要为不同的文本分类任务分别建模的问题；本发明专利技术为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式，输入内容包含了文本内容和标签内容，标签不再是独立于文本的符号，模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系，从而实现更好的分类效果。从而实现更好的分类效果。从而实现更好的分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于抽取式的文本分类方法

[0001]本专利技术涉及文本分类
，特别涉及一种基于抽取式的文本分类方法。

技术介绍

[0002]文本分类任务通常是指在给定的分类体系中，将文本分到其中某个或某几个类别上。具体还可细分为以下几种：单标签文本分类将待分类文本分到预设的多个类别中的某一个类别上。
[0003]多标签文本分类将待分类文本分到预设的多个类别中的某一个或几个类别上。
[0004]层级多标签文本分类将待分类文本分到预设的多层级类别中的某一个或几个类别上。
[0005]目前主流的文本分类方法有以下几种方案：一、基于统计学习的文本分类方法该方法首先需要人工对文本进行特征提取，选择合适的关键词作为该文本的特征词，然后把特征词用OneHot或TFIDF等方式进行编码得到特征向量，最后再用逻辑回归、支持向量机等机器学习算法的方法得出该特征向量之于各标签的概率。
[0006]二、基于深度学习的文本分类方法该方法以文本分词后的离散信息作为输入，然后经过lstm、bert等深度神经网络，并通过反向传播算法更新网络参数，最后通过sigmoid或softmax输出文本属于不同类别的概率。
[0007]三、基于关键词相似度的文本分类方法（CN202111666994.7）该方法首先对不同类别的文本总结出其关键词集合，然后对于每个文本通过实体识别模型抽取其中的关键词，分别计算所提取到的关键词与各文本类别的自定义关键词的相似度，取最高相似度，并判断最高相似度是否大于预设阈值，若大于则认为该待分类...

【技术保护点】

【技术特征摘要】
1.一种基于抽取式的文本分类方法，其特征在于：包括以下步骤：S1：样本构造，对于某文本分类任务，假设预定义的类别标签为Lable=[l1,l2,...l
n
]，对于某个具体文本text，假设其类别标签为l1和l2，把Lable与文本内容text拼接得到新的文本text2，这样文本text的类别标签l1和l2就存在于新构造的文本text2中，因此就可以使用实体识别的方式从text2中抽取到文本的类别；S2：基于深度预训练模型的实体识别，基于深度预训练语言模型BERT构建实体抽取模型，对文本text2中的每个字符进行分类，以确定其属于BIO中的哪种类别，因此需要BERT输出每个字符的向量，然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率，详细的模型计算步骤如下：a.在text2首尾分别添加“[CLS]”和“[SEP]”标志，然后进行切分，得到序列X=[[CLS],x1,x2,x3,...,x
n
,[SEP]]；b.把序列X输入到BERT模型，然后取BERT输出后的所有字符的向量E=[e
[CLS]
,e1,e2,e3...

【专利技术属性】
技术研发人员：崔丙剑，程龙龙，曹琉，田野，袁丁，刘邈，
申请(专利权)人：中电云脑天津科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人