基于朴素贝叶斯的案件文本分类方法、系统和存储介质技术方案

技术编号:20272697 阅读:27 留言:0更新日期:2019-02-02 03:43
本发明专利技术公开了一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质,该方法包括以下步骤:基于朴素贝叶斯算法构建分类器;获取训练样本对分类器进行训练;获取待分类文本;对待分类文本进行预处理,得到待分类文本的文本向量;将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;以后验概率最高的类别作为分类结果输出。本发明专利技术充分考虑了不同类别之间样本数量的差异性,将各个类别的先验概率以及每个特征词属于各个类别的先验概率作为分类器的计算因子,使得本发明专利技术对案件文本分类具有更好的分类效果。本发明专利技术可以广泛应用于数据挖掘领域。

【技术实现步骤摘要】
基于朴素贝叶斯的案件文本分类方法、系统和存储介质
本专利技术涉及数据挖掘领域,尤其是一种基于朴素贝叶斯的案件文本分类方法、系统和存储介质。
技术介绍
文本分类方法是一种有监督的分类方法,它用一个已标好类别的文本数据集来训练分类器,然后用训练好的分类器对未标识类别的文本进行分类,常用的分类算法有朴素贝叶斯方法、K-近邻方法、支持向量机方法等,其中,朴素贝叶斯分类方法是目前公认的一种简单有效的分类方法,并且它在文本分类领域表现出令人满意的性能。但是公安的案件文本具有类别分布不均衡的特点,即训练集各个类别所包含的文本数目差异较大的特点,故本专利技术提出了改进的朴素贝叶斯方法进行案件文本分类。
技术实现思路
为了解决上述技术问题,本专利技术提出了一种针对案件文本的基于朴素贝叶斯的案件文本分类方法、系统和存储介质。本专利技术所采取的第一种技术方案是:一种基于朴素贝叶斯的案件文本分类方法,包括以下步骤:基于朴素贝叶斯算法构建分类器;获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;获取待分类文本;对待分类文本进行预处理,得到待分类文本的文本向量;将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;以后验概率最高的类别作为分类结果输出。进一步,所述后验概率的计算公式为:其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本文件d进行分词处理后特征词集合中的元素。进一步,所述p(wi|Cj)的计算公式为:其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。进一步,所述对待分类文本进行预处理,得到待分类文本的文本向量,其具体包括:对待分类文本进行分词处理,得到特征词集合;用卡方检验在特征词集合中进行特征词选择;根据特征词选择的结果,构建文本向量。进一步,所述用卡方检验在特征词集合中进行特征词选择,其具体包括:计算特征词集合中每个特征词的卡方统计量;选取卡方统计量最高的前k个特征词作为特征词选择的结果;其中,k为设定的正整数。进一步,所述卡方统计量的计算公式为:其中,χ2(wi,Cj)表示特征词wi对于类别Cj的卡方统计量;N表示所有的文本数量;A表示包含特征词wi且属于类别Cj的文本数量;B表示包含特征词wi且不属于类别Cj的文本数量;C表示不包含特征词wi且属于类别Cj的文本数量;D表示不包含特征词wi且不属于类别Cj的文本数量。进一步,所述根据特征词选择的结果,构建文本向量,其具体包括:将特征词选择的结果中的每一个特征词作为向量空间中的一个维度;计算每一个维度对应的特征词的权重值,得到文本向量;所述权重值的计算公式为:IDF=log(D1/Dt);其中,IDF表示特征词的权重值;D1表示文本总数;Dt表示包含该特征词的文本数量。本专利技术所采取的第二种技术方案是:一种基于朴素贝叶斯的案件文本分类系统,包括:构建模块,用于基于朴素贝叶斯算法构建分类器;训练模块,用于获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;获取模块,用于获取待分类文本;数据处理模块,用于对待分类文本进行预处理,得到待分类文本的文本向量;分类模块,用于将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;并以后验概率最高的类别作为分类结果输出。本专利技术所采取的第三种技术方案是:一种基于朴素贝叶斯的案件文本分类系统,包括存储器,用于存储程序;处理器,用于加载所述程序以执行一种基于朴素贝叶斯的文本分类方法。本专利技术所采取的第四种技术方案是:一种存储介质,所述存储介质上存储有程序,所述程序被处理器执行时实现一种基于朴素贝叶斯的文本分类方法。本专利技术的有益效果是:本专利技术基于朴素贝叶斯算法构建分类器,并且对分类器进行了改进,在训练过程中,先计算各个类别的先验概率以及每个特征词属于各个类别的先验概率,然后根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;本专利技术的分类器充分考虑了不同类别之间样本数量的差异性,将各个类别的先验概率以及每个特征词属于各个类别的先验概率作为分类器的计算因子,使得本专利技术对案件文本分类具有更好的分类效果。附图说明图1为本专利技术一种基于朴素贝叶斯的案件文本分类方法的流程图。具体实施方式下面结合说明书附图和具体的实施例对本专利技术进行进一步的说明。参照图1,一种基于朴素贝叶斯的案件文本分类方法,包括以下步骤:S101、基于朴素贝叶斯算法构建分类器。S102、获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率。训练样本可以是经过处理的训练样本,也可以是未经处理的训练样本,若采用未经处理的训练样本,则需要通过步骤S104对训练样本也进行预处理。S103、获取待分类文本。待分类文本是原文,未经处理,因此在步骤S104需要对其进行处理。S104、对待分类文本进行预处理,得到待分类文本的文本向量。本步骤主要对待分类文本的特征词进行提取,由于提出的特征词比较多,需要对特征词集合进行降维,筛选出比较重要的特征词。S105、将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率。S106、以后验概率最高的类别作为分类结果输出。作为优选的实施例,所述后验概率的计算公式为:其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本文件d进行分词处理后特征词集合中的元素。本实施例的计算方式充分考虑了案件文本不同类别的样本数量的差异性,将分类的先验概率作为计算因子,能够对案件文本起到更好的分类效果。作为优选的实施例,所述p(wi|Cj)的计算公式为:其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。设置加权系数B的主要作用是为了避免在运算过程中,出现p(wi|Cj)为零的情况,导致程序崩溃。所述加权系数B可以采用以下函数得到,其中,dk表示文本文件d进行分词处理、卡方检验提取特征词后的结果,即文本向量。作为优选的实施例,所述步骤S104,具体包括:S1041、对待分类文本进行分词处理,得到特征词集合。本步骤包括中文分词和去除停用词。本步骤可以采用中科院的ICTCLAS分词系统实现,ICTCLAS分词系统充分利用了词典匹配、统计分析这两种分词方法的优点,既能发挥词典匹配法分词速度快、效率高的特点,又能利用统计分析法结合上下文识别新词、消除歧义的优点。该分词系统具有词性标注功能。在本实施例中,还根据公安领域特征对加入公安专业词汇。由于公安领域的很多词汇如“故意伤害”、“使用假证”、“非法持有假币”等词在案件文本中出现频繁,具有语义特征,但是分词组件却无法精确切分出这些词。因此,可对该分词进行改本文档来自技高网...

【技术保护点】
1.一种基于朴素贝叶斯的案件文本分类方法,其特征在于:包括以下步骤:基于朴素贝叶斯算法构建分类器;获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;获取待分类文本;对待分类文本进行预处理,得到待分类文本的文本向量;将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;以后验概率最高的类别作为分类结果输出。

【技术特征摘要】
1.一种基于朴素贝叶斯的案件文本分类方法,其特征在于:包括以下步骤:基于朴素贝叶斯算法构建分类器;获取训练样本对分类器进行训练,计算各个类别的先验概率以及每个特征词属于各个类别的先验概率;获取待分类文本;对待分类文本进行预处理,得到待分类文本的文本向量;将所述文本向量输入到分类器,根据各个类别的先验概率以及每个特征词属于各个类别的先验概率,计算待分类文本属于各个类别的后验概率;以后验概率最高的类别作为分类结果输出。2.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述后验概率的计算公式为:其中,p(Cj|d)表示待分类的文本d属于分类Cj的后验概率;p(Cj)表示分类Cj的先验概率;p(wi|Cj)表示特征词wi属于分类Cj的先验概率,wi是文本d进行分词处理后特征词集合中的元素。3.根据权利要求2所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述p(wi|Cj)的计算公式为:其中,|C|表示类别的总数,|D|表示分类Cj总的文本数量,|Dmax|表示最大的类别文档总数,B为加权系数。4.根据权利要求1所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述对待分类文本进行预处理,得到待分类文本的文本向量,其具体包括:对待分类文本进行分词处理,得到特征词集合;用卡方检验在特征词集合中进行特征词选择;根据特征词选择的结果,构建文本向量。5.根据权利要求4所述的一种基于朴素贝叶斯的案件文本分类方法,其特征在于:所述用卡方检验在特征词集合中进行特征词选择,其具体包括:计算特征词集合中每个特征词的卡方统计量;选取卡方统计量最高的前k个特征词作为特征词选择的结果;其中,k为设定的正整数。6.根据权利要求5所述的一种基于朴素贝叶斯的案件文本分类方...

【专利技术属性】
技术研发人员:屈丽平朱凌峰胡裕丰
申请(专利权)人:东莞数汇大数据有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1