文本分类方法及装置制造方法及图纸

技术编号:24091507 阅读:38 留言:0更新日期:2020-05-09 08:17
本申请实施例公开了一种文本分类方法及装置,该文本分类方法包括下述步骤:获取待处理的目标文本;通过卷积神经网络中的卷积层,提取目标文本的文本分类特征;根据文本分类特征,通过预设的支持向量机对文本分类特征进行分类,得到目标文本的文本分类信息。本申请实施例通过卷积神经网络提取目标文本的文本分类特征,再由支持向量机对提取的文本分类特征做分类,支持向量机只用部分文本分类特征就能实现对目标文本的分类功能,将卷积神经网络提取特征准确的特性和支持向量机适用于小样本训练的特性进行结合,能有效提高分类的准确率。

Text classification method and device

【技术实现步骤摘要】
文本分类方法及装置
本申请实施例涉及数据处理
,尤其是一种文本分类方法及装置。
技术介绍
文本分类问题是自然语言处理领域中一个非常重要的问题,随着统计学习方法的发展,解决大规模文本分类问题主要是采用人工特征工程以及浅层分类模型,整个文本分类问题就拆分成了特征工程和分类器两部分。利用CNN(ConvolutionalNeuralNetworks,卷积神经网络)或者RNN(RecurrentNeuralNetwork,递归神经网络)等网络结构自动获取特征表达能力,去掉繁杂的人工特征工程。现有通过神经网络模型在softmaxs层分类,通过神经网络模型抽取的数字特征,通过softmax层做分类,但是由于CNN的softmax层使用交叉熵损失,对小样本容易过拟合,需要大量训练数据,而数据量比较大,IOU(IntersectionoverUnion,是一种测量在特定数据集中检测相应物体准确度的一个标准)过严的话训练数据时间长且不易收敛,为了降低训练时长加快收敛而调低IOU又会使得模型分类准确率不高。
技术实现思路
本申请实施例提供一种能提高文本分类准确率的文本分类方法及装置。第一方面,提供一种文本分类方法,包括:获取待处理的目标文本;通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。可选地,获取待处理的目标文本之后,所述方法包括:提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。可选地,所述提取所述目标文本中多个目标特征词的特征词加权值之前,包括:将所述目标文本进行分词处理得到多个文本词条;根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。可选地,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。可选地,所述提取所述目标文本中多个目标特征词的特征词加权值,包括:获取目标特征词的词频信息和逆文本频率;将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。可选地,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:获取预设时间段内所述支持向量机的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;根据多个所述文本分类信息进行整合生成文本偏好信息。可选地,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括:获取所述目标文本中预设的类型校验信息;将所述类型校验信息和所述文本分类信息进行比对;当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。第二方面,提供一种文本分类装置,包括:第一获取模块,用于获取待处理的目标文本;第一处理模块,用于卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;第一执行模块,用于根据所述文本分类特征,通过所述预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。可选地,还包括:第一获取子模块,用于提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;第一执行子模块,用于将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。可选地,还包括:第一处理子模块,用于将所述目标文本进行分词处理得到多个文本词条;第二执行子模块,用于根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。可选地,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。可选地,还包括:第二获取子模块,用于获取目标特征词的词频信息和逆文本频率;第二处理子模块,用于将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。可选地,还包括:第二获取模块,用于获取预设时间段内所述卷积神经网络的输出历史记录,其中,所述输出历史记录中包括多个所述文本分类信息;第二执行模块,用于根据多个所述文本分类信息进行整合生成文本偏好信息。可选地,还包括:第三获取模块,用于获取所述目标文本中预设的类型校验信息;第二处理模块,用于将所述类型校验信息和所述文本分类信息进行比对;第三执行模块,用于当所述类型校验信息和所述文本分类信息不相匹配时,将所述目标文本和所述文本分类信息进行收录生成分类异常日志。第三方面,提供一种电子设备,其包括:处理器、存储器和总线;所述总线,用于连接所述处理器和所述存储器;所述存储器,用于存储操作指令;所述处理器,用于通过调用所述操作指令,执行上述的文本分类方法。第四方面,提供一种计算机可读存储介质,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述的文本分类方法。本申请实施例的有益效果为:通过获取待处理的目标文本,并通过卷积神经网络提取目标文本的文本分类特征,然后使用支持向量机对提取的文本分类特征做分类,由支持向量机取代了原来卷积神经网络中的softmax层对文本特征进行分类,支持向量机只用部分文本分类特征就能实现对目标文本的分类功能,将卷积神经网络提取特征准确的特性和支持向量机适用于小样本训练的特性进行结合,能有效提高分类的准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例文本分类方法的基本流程示意图;图2为本申请实施例提取文本分类特征的流程示意图;图3为本申请实施例抽取目标特征词的流程示意图;图4为本申请实施例提取特征词加权值的流程示意图;图5为本申请实施例计算文本偏好信息的基本流程示意图;图6为本申请实施例验证文本分类准确率的基本流程示意图;图7为本申请实施例文本分类装置的基本结构示意图;图8为本申请实施例计算机设备基本结构框图;图9为本申请一个实施例计算逆文档频率的结果数据示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行本文档来自技高网
...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待处理的目标文本;/n通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;/n根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
获取待处理的目标文本;
通过卷积神经网络中的卷积层,提取所述目标文本的文本分类特征;
根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息。


2.根据权利要求1所述的文本分类方法,其特征在于,获取待处理的目标文本之后,所述方法包括:
提取所述目标文本的特征向量,并提取所述目标文本中多个目标特征词的特征词加权值;
将所述特征向量和所述特征词加权值进行拼接生成所述文本分类特征。


3.根据权利要求2所述的文本分类方法,其特征在于,所述提取所述目标文本中多个目标特征词的特征词加权值之前,包括:
将所述目标文本进行分词处理得到多个文本词条;
根据预设的语言模型在所述多个文本词条中进行特征词抽取得到所述目标特征词。


4.根据权利要求3所述的文本分类方法,其特征在于,所述语言模型包括CHI、tf、IG、MI、交叉熵模型中的至少一种。


5.根据权利要求2所述的文本分类方法,其特征在于,所述提取所述目标文本中多个目标特征词的特征词加权值,包括:
获取目标特征词的词频信息和逆文本频率;
将所述词频信息和逆文本频率作为相应目标特征词的特征词加权值。


6.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述文本分类特征,通过预设的支持向量机对所述文本分类特征进行分类,得到所述目标文本的文本分类信息之后,包括...

【专利技术属性】
技术研发人员:李冉余辉李彦亓超马宇驰
申请(专利权)人:三角兽北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1