一种多层级的中文文本的分类方法及其系统技术方案

技术编号:28871677 阅读:33 留言:0更新日期:2021-06-15 23:04
本申请公开了一种多层级的中文文本的分类方法及其系统,其中多层级的中文文本的分类方法具体包括以下步骤:获取文本数据;对文本数据进行处理,得到特征库;响应于特征库构建完成,构建并训练粗分类模型;响应于完成粗分类模型的构建,进行细分类模型的构建;对训练好的粗分类模型和细分类模型进行测试。本申请结合分级结构的数据特点,利用深度学习方法进行粗分类,利用机器学习算法进行细分类,最终实现准确率较高的文本分类。

【技术实现步骤摘要】
一种多层级的中文文本的分类方法及其系统
本申请涉及大数据领域,具体地,涉及一种多层级的中文文本的分类方法及其系统。
技术介绍
现有技术中,文本分类是计算机对自然语言按照一定的分类体系进行自动化归类的过程,在很多领域有重大应用。随着应用场景的不断增多,分类体系大的场景越来越常见,以客服中心平台为例,希望能够通过自动文本分类的手段,实现客户来访工单的准确分类及快速记录,从而达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。但由于业务逻辑复杂,此场景下的分类体系十分庞大,不同于传统文本分类问题。分类体系大往往伴随着类别间存在着更丰富的关系,比如层级关系。这种多层级的分类体系是指,多个类别的层级之间是递进关系,一般是首先分为几大类,每一大类中包含若干中类,每个中类中又包含若干小类,每一小类下再分小小类,如此顺延,最后,每一个文本都可以分到某一个类目下,而其中的大类、中类、小类、小小类等之间存在着自上而下的逻辑关系。因此,为了充分利用这种关系,现有性能较好的方法是使用机器学习算法进行分层分类,即每层使用一个模型进行分类,下一层在上一层的分类结果上继续分类,直到得到最后的分类结果。目前这种分层分类方法取得了相对于传统文本分类方法更好的效果。但是,目前分层方法对每层都采用对每个类别单独训练机器学习模型的方式,由于类别众多且类别间数据不均衡,容易导致模型受到数据稀疏性影响,难以达到较高的准确率。并且,在前几层数据较为充足的情况下,受限于算法本身的性能,这种方法在前面几个层级上的准确率并不高,从而影响最终的分类准确率。现有的基于深度学习的方法在分类类别数较小的文本分类问题上取得了很高的精度,然而,由于类别众多和类别间数据不均衡性的限制,若在此类问题上直接应用现有的深度学习方法,准确率非常有限。因此,如何将现有的基于分层的方法和基于深度学习方法有效结合起来,目前还没有相应的成熟方案。因此如何将现有的基于分层的方法和基于深度学习方法有效结合起来,得到准确有效的文本分类,依然是本领域技术人员急需要解决的关键问题。
技术实现思路
本专利技术提出一种多层级的中文文本的分类方法及其系统,能够将现有的基于分层的方法和基于深度学习方法有效结合起来,解决现有技术中准确有效进行文本分类的问题。为达到上述目的,本申请提供了一种多层级的中文文本的分类方法,具体包括以下步骤:获取文本数据;对文本数据进行处理,得到特征库;响应于特征库构建完成,构建并训练粗分类模型;响应于完成粗分类模型的构建,进行细分类模型的构建;对训练好的粗分类模型和细分类模型进行测试。如上的,其中,文本数据包括获取文本数据遵循的分类体系,以及根据文本数据划分的训练数据集合、验证数据集合以及待分类的测试数据集合。如上的,其中,对文本数据进行处理,得到特征库,具体包括以下子步骤:构建停用词库;构建停用词库后,对文本数据进行分词处理;根据构建的停用词库对分词后的文本数据进行第一次筛选,得到第一次筛选结果;对第一次筛选结果进行第二次筛选,得到特征库。如上的,其中,响应于特征库构建完成,构建并训练粗分类模型,具体包括以下子步骤:在分类体系的N个层级中选取n个高层级;在每一高层级中构建粗分类模型,通过粗分类模型得到该高层级的分类结果。如上的,其中,每一高层级包含一个粗分类模型,每一高层级的粗分类模型将训练集合中的数据分到该高层级中相应的一个类别中。如上的,其中,响应于完成粗分类模块的构建,进行细分类模型的构建,具体包括以下子步骤:构建多叉树结构,并将分类结果写入到多叉树中的分类文件中;响应于写入到分类文件中,获取分类体系的低层级;构建并训练低层级的细分类模型。如上的,其中,每一个低层级中包括若干个类别,每一个类别对应一个细分类模型。如上的,其中,在训练细分类模型中,还包括对细分类模型的验证;对细分类模型的验证包括,利用XGBOOST算法获取每一个细分类模型的分类结果,每完成任意细分类模型的一次训练后,在验证集合中进行该细分类模型的验证;在验证集合中验证一次后,获取分类结果的准确率;当任意细分类模型在验证集合验证指定次数后所得到的准确率不再上升时,则验证通过,结束对该细分类模型的训练。如上的,其中,对训练好的粗分类模型和细分类模型进行测试,包括,依次逐条读取文本数据中的测试集合中的测试数据,对测试数据依次进行粗分类和细分类。一种多层级的中文文本的分类系统,具体包括:获取单元、特征库构建单元、高层级分类结果获取单元、低层级分类结果获取单元以及测试单元;获取单元,用于获取文本数据;特征库构建单元,用于对文本数据进行处理,得到特征库;粗分类模型构建单元,用于构建并训练CNN模型;细分类模型构建单元,用于响应于完成高层级的分类,进行细分类模型的构建和训练;测试单元,用于对训练好的粗分类模型和细分类模型进行测试。本申请具有以下有益效果:(1)本申请结合分级结构的数据特点,利用深度学习方法进行粗分类,利用机器学习算法进行细分类,最终实现准确率较高的文本分类。(2)本申请提出了一种粗分类细分类相结合的分类框架,此框架充分利用了分层类别体系不同层级具有不同的数据特点,针对不同层采用不同的分类方法,在前几层,分类类别数量较少,数据量相对充足,所以可以使用性能较好的深度学习方法做分类,其分类空间为本层的全部类别,因此每层只需要训练一个模型,在节省了训练资源同时提高精度。在后几层,分类类别数量变多,数据稀疏性的问题开始出现,此时需要对每个类别单独训练模型来减小每个模型的分类空间,减弱数据稀疏性的影响。粗分类和细分类相结合,可以最大化利用深度学习的优势提高性能,同时减弱系统复杂度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是根据本申请实施例提供的一种多层级的中文文本的分类方法流程图;图2是根据本申请实施例提供的一种多层级的中文文本的分类系统的内部结构图;图3是根据本申请实施例提供的分类体系的结构示意图。具体实施方式下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请涉及一种多层级的中文文本的分类方法及其系统。根据本申请,能够使用粗分类模块和细分类模块相结合的分类框架,解决类别数量达到上百甚至上千的规模的文本分类问题。如图1所示为本申请提供的多层级的中文文本的分类方法,具体包括以下步骤:步骤S110:获取文本数据。获取的文本数据包括获取文本数据遵循的分类体系,以及根据文本数本文档来自技高网
...

【技术保护点】
1.一种多层级的中文文本的分类方法,其特征在于,具体包括以下步骤:/n获取文本数据;/n对文本数据进行处理,得到特征库;/n响应于特征库构建完成,构建并训练粗分类模型;/n响应于完成粗分类模型的构建,进行细分类模型的构建;/n对训练好的粗分类模型和细分类模型进行测试。/n

【技术特征摘要】
1.一种多层级的中文文本的分类方法,其特征在于,具体包括以下步骤:
获取文本数据;
对文本数据进行处理,得到特征库;
响应于特征库构建完成,构建并训练粗分类模型;
响应于完成粗分类模型的构建,进行细分类模型的构建;
对训练好的粗分类模型和细分类模型进行测试。


2.如权利要求1所述的多层级的中文文本的分类方法,其特征在于,文本数据包括获取文本数据遵循的分类体系,以及根据文本数据划分的训练数据集合、验证数据集合以及待分类的测试数据集合。


3.如权利要求1所述的多层级的中文文本的分类方法,其特征在于,对文本数据进行处理,得到特征库,具体包括以下子步骤:
构建停用词库;
构建停用词库后,对文本数据进行分词处理;
根据构建的停用词库对分词后的文本数据进行第一次筛选,得到第一次筛选结果;
对第一次筛选结果进行第二次筛选,得到特征库。


4.如权利要求1所述的多层级的中文文本的分类方法,其特征在于,响应于特征库构建完成,构建并训练粗分类模型,具体包括以下子步骤:
在分类体系的N个层级中选取n个高层级;
在每一高层级中构建粗分类模型,通过粗分类模型得到该高层级的分类结果。


5.如权利要求4所述的多层级的中文文本的分类方法,其特征在于,每一高层级包含一个粗分类模型,每一高层级的粗分类模型将训练集合中的数据分到该高层级中相应的一个类别中。


6.如权利要求1所述的多层级的中文文本的分类方法,其特征在于,响应于完成粗分类模块的构建,进行细分类模型的构建,具体包括...

【专利技术属性】
技术研发人员:郭彩丽贺同泽张亮代晓菊杜忠田张宇峰
申请(专利权)人:北京邮电大学上海理想信息产业集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1