基于朴素贝叶斯的案件文本分类方法、系统和存储介质技术方案

技术编号：20272697 阅读：27 留言：0更新日期：2019-02-02 03:43

本发明专利技术公开了一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质，该方法包括以下步骤：基于朴素贝叶斯算法构建分类器；获取训练样本对分类器进行训练；获取待分类文本；对待分类文本进行预处理，得到待分类文本的文本向量；将所述文本向量输入到分类器，根据各个类别的先验概率以及每个特征词属于各个类别的先验概率，计算待分类文本属于各个类别的后验概率；以后验概率最高的类别作为分类结果输出。本发明专利技术充分考虑了不同类别之间样本数量的差异性，将各个类别的先验概率以及每个特征词属于各个类别的先验概率作为分类器的计算因子，使得本发明专利技术对案件文本分类具有更好的分类效果。本发明专利技术可以广泛应用于数据挖掘领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于朴素贝叶斯的案件文本分类方法、系统和存储介质
本专利技术涉及数据挖掘领域，尤其是一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质。
技术介绍
文本分类方法是一种有监督的分类方法，它用一个已标好类别的文本数据集来训练分类器，然后用训练好的分类器对未标识类别的文本进行分类，常用的分类算法有朴素贝叶斯方法、K-近邻方法、支持向量机方法等，其中，朴素贝叶斯分类方法是目前公认的一种简单有效的分类方法，并且它在文本分类领域表现出令人满意的性能。但是公安的案件文本具有类别分布不均衡的特点，即训练集各个类别所包含的文本数目差异较大的特点，故本专利技术提出了改进的朴素贝叶斯方法进行案件文本分类。
技术实现思路
为了解决上述技术问题，本专利技术提出了一种针对案件文本的基于朴素贝叶斯的案件文本分类方法、系统和存储介质。本专利技术所采取的第一种技术方案是：一种基于朴素贝叶斯的案件文本分类方法，包括以下步骤：基于朴素贝叶斯算法构建分类器；获取训练样本对分类器进行训练，计算各个类别的先验概率以及每个特征词属于各个类别的先验概率；获取待分类文本；对待分类文本进行预处理，得到待分类文本的文本向量；将所述文本向量输入到分类器，根据各个类别的先验概率以及每个特征词属于各个类别的先验概率，计算待分类文本属于各个类别的后验概率；以后验概率最高的类别作为分类结果输出。进一步，所述后验概率的计算公式为：其中，p(Cj|d)表示待分类的文本d属于分类Cj的后验概率；p(Cj)表示分类Cj的先验概率；p(wi|Cj)表示特征词wi属于分类Cj的先验概率，wi是文本文件d进行分词处理后特征词集合中的元...

【技术保护点】
1.一种基于朴素贝叶斯的案件文本分类方法，其特征在于：包括以下步骤：基于朴素贝叶斯算法构建分类器；获取训练样本对分类器进行训练，计算各个类别的先验概率以及每个特征词属于各个类别的先验概率；获取待分类文本；对待分类文本进行预处理，得到待分类文本的文本向量；将所述文本向量输入到分类器，根据各个类别的先验概率以及每个特征词属于各个类别的先验概率，计算待分类文本属于各个类别的后验概率；以后验概率最高的类别作为分类结果输出。

【技术特征摘要】
1.一种基于朴素贝叶斯的案件文本分类方法，其特征在于：包括以下步骤：基于朴素贝叶斯算法构建分类器；获取训练样本对分类器进行训练，计算各个类别的先验概率以及每个特征词属于各个类别的先验概率；获取待分类文本；对待分类文本进行预处理，得到待分类文本的文本向量；将所述文本向量输入到分类器，根据各个类别的先验概率以及每个特征词属于各个类别的先验概率，计算待分类文本属于各个类别的后验概率；以后验概率最高的类别作为分类结果输出。2.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法，其特征在于：所述后验概率的计算公式为：其中，p(Cj|d)表示待分类的文本d属于分类Cj的后验概率；p(Cj)表示分类Cj的先验概率；p(wi|Cj)表示特征词wi属于分类Cj的先验概率，wi是文本d进行分词处理后特征词集合中的元素。3.根据权利要求2所述的一种基于朴素贝叶斯的案件文本分类方法，其特征在于：所述p(wi|Cj)的计算公式为：其中，|C|表示类别的总数，|D|表示分类Cj总的文本数量，|Dmax|表示最大的类别文档总数，B为加权系数。4.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法，其特征在于：所述对待分类文本进行预处理，得到待分类文本的文本向量，其具体包括：对待分类文本进行分词处理，得到特征词集合；用卡方检验在特征词集合中进行特征词选择；根据特征词选择的结果，构建文本向量。5.根据权利要求4所述的一种基于朴素贝叶斯的案件文本分类方法，其特征在于：所述用卡方检验在特征词集合中进行特征词选择，其具体包括：计算特征词集合中每个特征词的卡方统计量；选取卡方统计量最高的前k个特征词作为特征词选择的结果；其中，k为设定的正整数。6.根据权利要求5所述的一种基于朴素贝叶斯的案件文本分类方...

【专利技术属性】
技术研发人员：屈丽平，朱凌峰，胡裕丰，
申请(专利权)人：东莞数汇大数据有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人