一种基于中文短文本分类的文档分类方法技术

技术编号：38261893 阅读：12 留言：0更新日期：2023-07-27 10:21

一种基于中文短文本分类的文档分类方法，首先，通过将标注后的数据进行清洗，然后利用中文分词技术分词及去停用词；通过TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文短文本分类的文档分类方法

[0001]本专利技术涉及自然语言处理中的文本分类领域，尤其涉及一种中文短文本分类的方法。

技术介绍

[0002]随着计算机信息技术的飞速发展，当下电子文档已经成为知识信息的重要载体，而伴随着企业的发展电子文档的数量也日益增多，电子化文档的有效分类管理也逐渐成为一个明显的问题。
[0003]如何对企业内部的文档进行分类，可以将相同主题的文档自动归为一类，而不同主题的文档又能以明确的形式予以区分，以便用户管理和查阅的问题具有其一定的意义。
[0004]据了解目前大多数企业的文档分类可能还停留在指定人员通过人工手段进行整理、分类及归档，这种方式效率较为低下。而部分支持自动分类的文档管理系统也是基于一些规则或设置的方法进行分类，其操作和记录本身也伴随一定的复杂性。

技术实现思路

[0005]为了解决上述技术问题，本专利技术提出一种基于中文短文本分类的文档分类方法。
[0006]本专利技术主要利用企业文档较为规范的标题或文件名，利用NLP的相关技术对原始文本数据进行预处理，在提取相应的文本特征后利用朴素贝叶斯分类器进行分类，最后采用软投票的方式确定该文档的所属预设类别。
[0007]本专利技术是通过以下技术方案达到上述目的：一种基于中文短文本分类的文档分类方法，主要包括数据采集模块、数据处理模块、文本分类模块及数据展示模块，所述方法功能实现主要包括如下步骤：
[0008](1)获取待分类的多个文档的标题或文件名，通过数据采集模块将文...

【技术保护点】

【技术特征摘要】
1.一种基于中文短文本分类的文档分类方法，其特征在于包括以下步骤：(1)获取待分类的多个文档的标题或文件名，通过数据采集模块将文本以固定格式存储于特定文件中；(2)对上述多条文本数据进行人工标注，初步构建可用于文本分类器的中文语料库；(3)通过数据处理模块对语料库中的数据进行清洗，然后将其分成训练集和测试集；(4)将步骤(3)得到的测试集数据，通过结巴分词工具对上述文本进行中文文本分词及去除停用词；(5)将步骤(4)中得到的经过分词后的词通过特征提取进行特征表示；(6)在文本分类器模块中构建机器学习的NB和SVM文本分类器，依赖经过标注的语料内容进行全监督训练，保存最优的训练模型；(7)将步骤(6)中得到的模型集成到企业中文文档分类系统中，通过文本分类器模块实现未标注的文本的自动分类。2.根据权利要求1所述的一种基于中文短文本分类的文档分类方法，其特征在于：所述步骤(1)获取待分类的多个文档的标题或文件名，通过数据采集模块将文本以固定格式存储于特定文件中，具体如下：通过网络爬虫和自写程序来完成相应文本数据的采集、存储并进行分析。3.根据权利要求1所述的一种基于中文短文本分类的文档分类方法，其特征在于：所述步骤(2)对上述多条文本数据进行人工标注，初步构建可用于文本分类器的中文语料库方法如下：通过人工方式对文档信息进行分析，依据实际需要预设分类标签。4.根据权利要求1所述的一种基于中文短文本分类的文档分类方法，其特征在于：所述步骤(3)通过数据处理模块对语料库中的数据进行清洗，然后将其分成训练集和测试集，具体如下：对数据进行清洗，主要去除可能存在的HTML标签和特殊符号等，仅保留纯文本数据，并将其随机划分出训练集和测试集(占比为7：3)。5.根据权利要求1所述的一种基于中文短文本分类的文档分类方法，其特征在于：所述步骤(4)将得到的测试集数据通过结巴分词工具对上述文本进行中文文本分词及去除停用词，具体如下：(5.1)在Python3.7的环境中，利用结巴分词工具进行文本的中文分词，将目标文本分割成一个个有意义的词汇；(5.2)依赖停用词表，去除对分类过程无意义的词汇。6.根据权利要求1所述的一种基于中文短文本分类的文档分类方法，其特征在于：所述步骤(5)将步...

【专利技术属性】
技术研发人员：赵小敏，张家龙，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人