一种多层级的中文文本的分类方法及其系统技术方案

技术编号：28871677 阅读：33 留言：0更新日期：2021-06-15 23:04

本申请公开了一种多层级的中文文本的分类方法及其系统，其中多层级的中文文本的分类方法具体包括以下步骤：获取文本数据；对文本数据进行处理，得到特征库；响应于特征库构建完成，构建并训练粗分类模型；响应于完成粗分类模型的构建，进行细分类模型的构建；对训练好的粗分类模型和细分类模型进行测试。本申请结合分级结构的数据特点，利用深度学习方法进行粗分类，利用机器学习算法进行细分类，最终实现准确率较高的文本分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种多层级的中文文本的分类方法及其系统
本申请涉及大数据领域，具体地，涉及一种多层级的中文文本的分类方法及其系统。
技术介绍
现有技术中，文本分类是计算机对自然语言按照一定的分类体系进行自动化归类的过程，在很多领域有重大应用。随着应用场景的不断增多，分类体系大的场景越来越常见，以客服中心平台为例，希望能够通过自动文本分类的手段，实现客户来访工单的准确分类及快速记录，从而达到加快现场话务员服务响应能效，提升整体服务质量，提高热线整体运营数据分析的智能化程度，优化管理的效果。但由于业务逻辑复杂，此场景下的分类体系十分庞大，不同于传统文本分类问题。分类体系大往往伴随着类别间存在着更丰富的关系，比如层级关系。这种多层级的分类体系是指，多个类别的层级之间是递进关系，一般是首先分为几大类，每一大类中包含若干中类，每个中类中又包含若干小类，每一小类下再分小小类，如此顺延，最后，每一个文本都可以分到某一个类目下，而其中的大类、中类、小类、小小类等之间存在着自上而下的逻辑关系。因此，为了充分利用这种关系，现有性能较好的方法是使用机器学习算法进行分层分类，即每层使用一个模型进行分类，下一层在上一层的分类结果上继续分类，直到得到最后的分类结果。目前这种分层分类方法取得了相对于传统文本分类方法更好的效果。但是，目前分层方法对每层都采用对每个类别单独训练机器学习模型的方式，由于类别众多且类别间数据不均衡，容易导致模型受到数据稀疏性影响，难以达到较高的准确率。并且，在前几层数据较为充足的情况下，受限于算法本身的性能，这种方法在前面几个层...

【技术保护点】
1.一种多层级的中文文本的分类方法，其特征在于，具体包括以下步骤：/n获取文本数据；/n对文本数据进行处理，得到特征库；/n响应于特征库构建完成，构建并训练粗分类模型；/n响应于完成粗分类模型的构建，进行细分类模型的构建；/n对训练好的粗分类模型和细分类模型进行测试。/n

【技术特征摘要】
1.一种多层级的中文文本的分类方法，其特征在于，具体包括以下步骤：
获取文本数据；
对文本数据进行处理，得到特征库；
响应于特征库构建完成，构建并训练粗分类模型；
响应于完成粗分类模型的构建，进行细分类模型的构建；
对训练好的粗分类模型和细分类模型进行测试。

2.如权利要求1所述的多层级的中文文本的分类方法，其特征在于，文本数据包括获取文本数据遵循的分类体系，以及根据文本数据划分的训练数据集合、验证数据集合以及待分类的测试数据集合。

3.如权利要求1所述的多层级的中文文本的分类方法，其特征在于，对文本数据进行处理，得到特征库，具体包括以下子步骤：
构建停用词库；
构建停用词库后，对文本数据进行分词处理；
根据构建的停用词库对分词后的文本数据进行第一次筛选，得到第一次筛选结果；
对第一次筛选结果进行第二次筛选，得到特征库。

4.如权利要求1所述的多层级的中文文本的分类方法，其特征在于，响应于特征库构建完成，构建并训练粗分类模型，具体包括以下子步骤：
在分类体系的N个层级中选取n个高层级；
在每一高层级中构建粗分类模型，通过粗分类模型得到该高层级的分类结果。

5.如权利要求4所述的多层级的中文文本的分类方法，其特征在于，每一高层级包含一个粗分类模型，每一高层级的粗分类模型将训练集合中的数据分到该高层级中相应的一个类别中。

6.如权利要求1所述的多层级的中文文本的分类方法，其特征在于，响应于完成粗分类模块的构建，进行细分类模型的构建，具体包括...

【专利技术属性】
技术研发人员：郭彩丽，贺同泽，张亮，代晓菊，杜忠田，张宇峰，
申请(专利权)人：北京邮电大学，上海理想信息产业集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人