一种基于抽取式的文本分类方法技术

技术编号:38023508 阅读:9 留言:0更新日期:2023-06-30 10:50
本发明专利技术公开了一种基于抽取式的文本分类方法,涉及到文本分类技术领域,包括S1:样本构造;S2:基于深度预训练模型的实体识别。本发明专利技术把文本分类任务转化成实体识别任务,通过实体识别模型从文本中抽取文本的类别标签,把多种类型的文本分类任务转化成统一的实体识别任务,避免了传统方法需要为不同的文本分类任务分别建模的问题;本发明专利技术为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式,输入内容包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系,从而实现更好的分类效果。从而实现更好的分类效果。从而实现更好的分类效果。

【技术实现步骤摘要】
一种基于抽取式的文本分类方法


[0001]本专利技术涉及文本分类
,特别涉及一种基于抽取式的文本分类方法。

技术介绍

[0002]文本分类任务通常是指在给定的分类体系中,将文本分到其中某个或某几个类别上。具体还可细分为以下几种:单标签文本分类将待分类文本分到预设的多个类别中的某一个类别上。
[0003]多标签文本分类将待分类文本分到预设的多个类别中的某一个或几个类别上。
[0004]层级多标签文本分类将待分类文本分到预设的多层级类别中的某一个或几个类别上。
[0005]目前主流的文本分类方法有以下几种方案:一、基于统计学习的文本分类方法该方法首先需要人工对文本进行特征提取,选择合适的关键词作为该文本的特征词,然后把特征词用OneHot或TFIDF等方式进行编码得到特征向量,最后再用逻辑回归、支持向量机等机器学习算法的方法得出该特征向量之于各标签的概率。
[0006]二、基于深度学习的文本分类方法该方法以文本分词后的离散信息作为输入,然后经过lstm、bert等深度神经网络,并通过反向传播算法更新网络参数,最后通过sigmoid或softmax输出文本属于不同类别的概率。
[0007]三、基于关键词相似度的文本分类方法(CN202111666994.7)该方法首先对不同类别的文本总结出其关键词集合,然后对于每个文本通过实体识别模型抽取其中的关键词,分别计算所提取到的关键词与各文本类别的自定义关键词的相似度,取最高相似度,并判断最高相似度是否大于预设阈值,若大于则认为该待分类文本属于该最大相似度所对应的文本类别;否则,待分类文本不属于当前已有文本类别任何一个类别。
[0008]以上几种方法对于单标签文本分类、多标签文本分类、层级多标签文本分类等任务需要分别建模,缺乏一个能实现这三种分类场景的统一架构的方法。
[0009]且几种方法在构建文本分类模型时,均把标签当作独立的符号,模型的输入信息只有文本内容,模型无法学习标签与文本、标签与标签之间的语义关系,因此分类效果难以保证。
[0010]因此,提出一种基于抽取式的文本分类方法来解决上述问题很有必要。

技术实现思路

[0011]本专利技术的目的在于提供一种基于抽取式的文本分类方法,以解决缺乏一个能实现
三种分类场景的统一架构的方法和分类效果难以保证的问题。
[0012]为实现上述目的,本专利技术提供如下技术方案:一种基于抽取式的文本分类方法,包括以下步骤:S1:样本构造,对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...l
n
],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以使用实体识别的方式从text2中抽取到文本的类别;S2:基于深度预训练模型的实体识别,基于深度预训练语言模型BERT构建实体抽取模型,对文本text2中的每个字符进行分类,以确定其属于BIO中的哪种类别,因此需要BERT输出每个字符的向量,然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率,详细的模型计算步骤如下:a.在text2首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,x
n
,[SEP]];b.把序列X输入到BERT模型,然后取BERT输出后的所有字符的向量E=[e
[CLS],e1,e2,e3,...,e
n
,e
[SEP]];c.把文本中每个字符的表示向量E输入全连接神经网络,并经过softmax层后输出,得到该字符属于每种实体的概率P=[p
B
,p
I
,p
O
];d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss;e.对loss进行反向传播,通过梯度下降法更新模型参数。
[0013]优选的,所述S1中text2由原始的text和Lable拼接后形成,对于单标签文本分类任务和多标签文本分类任务,把预定义的多个标签用“,”连接后再通过一个分隔符“[SEP]”与文本内容拼接;对于层级多标签文本分类任务,首先把某个标签的子标签用“[]”包括起来,多个标签之间再用“,”连接,预定义的第一层级标签为“教育”、“体育”和“旅游”,“教育”包含子标签“中小学”和“大学”,“体育”包含子标签“足球”和“篮球”,“旅游”包含子标签“国内游”和“国外游”,经过处理后得到“教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]”,然后再用分隔符“[SEP]”与文本内容拼接。
[0014]优选的,所述S2中实体标签采用BIO标注模式,“B”表示实体的开始,“I”表示实体的中间或者结尾,“O”表示不属于实体。
[0015]本专利技术的技术效果和优点:本专利技术把文本分类任务转化成实体识别任务,通过实体识别模型从文本中抽取文本的类别标签,把多种类型的文本分类任务转化成统一的实体识别任务,避免了传统方法需要为不同的文本分类任务分别建模的问题;本专利技术为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式,输入内容包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系,从而实现更好的分类效果。
附图说明
[0016]图1为本专利技术基于抽取式的文本分类方法步骤图。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]本专利技术提供了如图1所示的一种基于抽取式的文本分类方法,首先把文本分类任务转化为实体识别任务,三种文本分类任务经过转化后成为一个统一的实体识别任务,然后用一个基于深度预训练语言模型的实体识别算法进行实体识别从而完成文本分类任务。
[0019]该方法实现了对不同的文本分类算法统一建模,避免了传统的文本分类算法需要针对不同任务分别建模的问题;且该方法的输入包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的关系,从而实现更好的分类效果。
[0020]具体步骤包括以下几方面:样本构造对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...l
n
],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于抽取式的文本分类方法,其特征在于:包括以下步骤:S1:样本构造,对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...l
n
],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以使用实体识别的方式从text2中抽取到文本的类别;S2:基于深度预训练模型的实体识别,基于深度预训练语言模型BERT构建实体抽取模型,对文本text2中的每个字符进行分类,以确定其属于BIO中的哪种类别,因此需要BERT输出每个字符的向量,然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率,详细的模型计算步骤如下:a.在text2首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,x
n
,[SEP]];b.把序列X输入到BERT模型,然后取BERT输出后的所有字符的向量E=[e
[CLS]
,e1,e2,e3...

【专利技术属性】
技术研发人员:崔丙剑程龙龙曹琉田野袁丁刘邈
申请(专利权)人:中电云脑天津科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1