一种基于中文短文本分类的文档分类方法技术

技术编号:38261893 阅读:12 留言:0更新日期:2023-07-27 10:21
一种基于中文短文本分类的文档分类方法,首先,通过将标注后的数据进行清洗,然后利用中文分词技术分词及去停用词;通过TF

【技术实现步骤摘要】
一种基于中文短文本分类的文档分类方法


[0001]本专利技术涉及自然语言处理中的文本分类领域,尤其涉及一种中文短文本分类的方法。

技术介绍

[0002]随着计算机信息技术的飞速发展,当下电子文档已经成为知识信息的重要载体,而伴随着企业的发展电子文档的数量也日益增多,电子化文档的有效分类管理也逐渐成为一个明显的问题。
[0003]如何对企业内部的文档进行分类,可以将相同主题的文档自动归为一类,而不同主题的文档又能以明确的形式予以区分,以便用户管理和查阅的问题具有其一定的意义。
[0004]据了解目前大多数企业的文档分类可能还停留在指定人员通过人工手段进行整理、分类及归档,这种方式效率较为低下。而部分支持自动分类的文档管理系统也是基于一些规则或设置的方法进行分类,其操作和记录本身也伴随一定的复杂性。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提出一种基于中文短文本分类的文档分类方法。
[0006]本专利技术主要利用企业文档较为规范的标题或文件名,利用NLP的相关技术对原始文本数据进行预处理,在提取相应的文本特征后利用朴素贝叶斯分类器进行分类,最后采用软投票的方式确定该文档的所属预设类别。
[0007]本专利技术是通过以下技术方案达到上述目的:一种基于中文短文本分类的文档分类方法,主要包括数据采集模块、数据处理模块、文本分类模块及数据展示模块,所述方法功能实现主要包括如下步骤:
[0008](1)获取待分类的多个文档的标题或文件名,通过数据采集模块将文本以固定格式存储于特定文件中;
[0009](2)对上述多条文本数据进行人工标注,初步构建可用于文本分类器的中文语料库;
[0010](3)通过数据处理模块对语料库中的数据进行清洗,然后将其分成训练集和测试集;
[0011](4)将步骤(3)得到的测试集数据,通过结巴分词工具对上述文本进行中文文本分词及去除停用词;
[0012](5)将步骤(4)中得到的经过分词后的词通过特征提取进行特征表示;
[0013](6)在文本分类器模块中构建机器学习的NB和SVM文本分类器,依赖经过标注的语料内容进行全监督训练,保存最优的训练模型。
[0014](7)将步骤(6)中得到的模型集成到企业中文文档分类系统中,通过文本分类器模块实现未标注的文本的自动分类,从而得到该文本代表的目标文档的分类结果,并由数据展示模块显示结果。
[0015]作为优选,所述步骤(1)具体包括:
[0016]通过网络爬虫和自写程序来完成相应文本数据的采集、存储并进行分析。
[0017]作为优选,所述步骤(2)具体包括:
[0018]对步骤(1)中的文本通过人工方式对文档信息进行分析,依据实际需要预设分类标签。
[0019]作为优选,所述步骤(3)具体包括:
[0020]1)对数据进行清洗,主要去除可能存在的HTML标签和特殊符号等,仅保留纯文本数据,并将其随机划分出训练集和测试集(占比为7:3)。
[0021]作为优选,步骤(4)具体包括:
[0022]1)在Python3.7的环境中,利用结巴分词工具进行文本的中文分词,将目标文本分割成一个个有意义的词汇。
[0023]2)依赖停用词表,去除例如“的”、“了”、“和”等对分类过程无意义的词汇。
[0024]作为优选,步骤(5)具体包括:
[0025]1)利用TF

IDF算法计算文本中词语的重要性,进而进行特征选择,它根据词频和逆文档频率来计算每个词的重要性,并将其转化为数字向量,作为特征向量进行分类。TF

IDF公式如下(1)~(3)所示:
[0026][0027][0028]TF

IDF=TFxIDF (3)
[0029]其中t表示某个词在文章中出现的次数,s表示文章总词数,n表示语料库中的文档总数,m表示包含该词的文档数,加1主要防止分母为0。
[0030]作为优选,所述步骤(6)具体包括:
[0031]1)将经过步骤(5)所得的特征向量作为朴素贝叶斯分类器的输入从而得到TF

IDF加权的NB模型,利用该模型对训练集的数据进行训练并保存训练后的模型。上述贝叶斯模型的核心公式如下(4)所示:
[0032][0033]其中B和C为随机的事件。P(C
i
)与P(C
j
)同为先验概率,根据先前的经验得到对应的概率。P(C
i
|B)为后验概率,在已知B的条件之下,C
i
对应的概率,找到其最大的条件概率是该分类器的核心目标。
[0034]2)同时为提高分类准确性,将步骤(5)所得特征向量同步输入采用多分类策略的SVM分类器中训练得到一个结果模型,本专利技术采用OVO SVMs。需要注意到是该方式需要构建SVM分类器数量如下公式(5)所示:
[0035][0036]其中C为分类器数量,n为给定的类别数目。
[0037]3)将上述利用Scikit

learn学习库构建的NB分类器和SVM分类器得到的分类结果进行软投票从而获得最终的分类结果。具体来说,软投票会将每个分类器预测出的概率值加权平均,然后选取平均值最大的项作为最终的分类结果。
[0038]4)为验证文本分类模型的准确性与可靠性,采用交叉验证,多次将数据集划分为训练集和测试集,再输入上述文本分类模型中进行训练和测试。
[0039]作为优选,所述步骤(7)具体包括:在企业中文文档分类系统中通过数据采集模块获得上传文档的文件名后通过数据处理模块的处理,传入参数访问步骤(6)中得到的模型进行分类,并将分类所得结果同步关联所述文档名称及存储路径后进行持久化并显示到前端界面。
[0040]本专利技术的一种基于短文本分类的文档分类系统,包括数据采集模块、数据预处理模块、文本分类模块及数据展示模块,主要包括基于结巴分词的中文文本处理,基于TF

IDF的特征提取,训练通过软投票方式结合的NB和SVM文本分类模型,实现文件名或标题的自动分类。目前通过专人手动整理文档进行文档分类相对是大部分中小型企业最普遍的处理方式,这种方式不仅费时费力还会增加公司成员之间的沟通成本,且随着企业发展过程中电子文档数据的增长,人工操作已经无法全面满足各方的实质需要。对于企业历史文档的查阅和分享,其效率都是建立在文档分类管理的基础上。本专利技术通过基于机器学习的中文短文本分类设计了一种企业文档自动分类的系统,在尽量保证分类准确度的基础上,提高了文档分类的效率。
[0041]本专利技术具有如下有益效果:
[0042](1)可自动分类上传的中文命名的文档;
[0043](2)提高企业文档分类管理的效率,降低人工成本的同时提高文档查阅的便捷性;
[0044](3)是自然语言处理技术在特定领域的使用尝试,有助于企业的信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中文短文本分类的文档分类方法,其特征在于包括以下步骤:(1)获取待分类的多个文档的标题或文件名,通过数据采集模块将文本以固定格式存储于特定文件中;(2)对上述多条文本数据进行人工标注,初步构建可用于文本分类器的中文语料库;(3)通过数据处理模块对语料库中的数据进行清洗,然后将其分成训练集和测试集;(4)将步骤(3)得到的测试集数据,通过结巴分词工具对上述文本进行中文文本分词及去除停用词;(5)将步骤(4)中得到的经过分词后的词通过特征提取进行特征表示;(6)在文本分类器模块中构建机器学习的NB和SVM文本分类器,依赖经过标注的语料内容进行全监督训练,保存最优的训练模型;(7)将步骤(6)中得到的模型集成到企业中文文档分类系统中,通过文本分类器模块实现未标注的文本的自动分类。2.根据权利要求1所述的一种基于中文短文本分类的文档分类方法,其特征在于:所述步骤(1)获取待分类的多个文档的标题或文件名,通过数据采集模块将文本以固定格式存储于特定文件中,具体如下:通过网络爬虫和自写程序来完成相应文本数据的采集、存储并进行分析。3.根据权利要求1所述的一种基于中文短文本分类的文档分类方法,其特征在于:所述步骤(2)对上述多条文本数据进行人工标注,初步构建可用于文本分类器的中文语料库方法如下:通过人工方式对文档信息进行分析,依据实际需要预设分类标签。4.根据权利要求1所述的一种基于中文短文本分类的文档分类方法,其特征在于:所述步骤(3)通过数据处理模块对语料库中的数据进行清洗,然后将其分成训练集和测试集,具体如下:对数据进行清洗,主要去除可能存在的HTML标签和特殊符号等,仅保留纯文本数据,并将其随机划分出训练集和测试集(占比为7:3)。5.根据权利要求1所述的一种基于中文短文本分类的文档分类方法,其特征在于:所述步骤(4)将得到的测试集数据通过结巴分词工具对上述文本进行中文文本分词及去除停用词,具体如下:(5.1)在Python3.7的环境中,利用结巴分词工具进行文本的中文分词,将目标文本分割成一个个有意义的词汇;(5.2)依赖停用词表,去除对分类过程无意义的词汇。6.根据权利要求1所述的一种基于中文短文本分类的文档分类方法,其特征在于:所述步骤(5)将步...

【专利技术属性】
技术研发人员:赵小敏张家龙
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1