一种隐多项式朴素贝叶斯文本分类方法及装置制造方法及图纸

技术编号:21914041 阅读:29 留言:0更新日期:2019-08-21 12:27
本发明专利技术提供了一种隐多项式朴素贝叶斯文本分类方法及装置,为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响。本发明专利技术避免了贝叶斯网络的结构学习,从而降低了由于文本数据的高维性带来的训练时间开销,同时本发明专利技术将多条件概率的估计过程推迟到了分类阶段,巧妙地节省了较大的空间开销。本发明专利技术提供的隐多项式朴素贝叶斯文本分类模型不仅改善了多项式朴素贝叶斯文本分类模型的分类精度,避免了贝叶斯网络结构学习的时间和空间开销,而且还是一种单一模型学习方法。

A Naive Bayesian Text Classification Method and Device for Implicit Polynomials

【技术实现步骤摘要】
一种隐多项式朴素贝叶斯文本分类方法及装置
本专利技术涉及一种隐多项式朴素贝叶斯文本分类方法及装置,属于人工智能数据挖掘分类

技术介绍
随着网络与通讯技术的飞速发展,网上电子文档、电子邮件、手机短信等信息量成爆炸趋势,大规模的文本处理已经成为一个挑战,而文本自动分类是将文本划分到预定义的类中,成为帮助人们检索、查询、过滤和利用信息的有效手段。文本分类具有是非广泛的应用场景,比如垃圾邮件的判定、手机短信的过滤、新闻出版按照栏目分类、词性标注、词义排歧、科技论文分类等等。朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题,但是它的单词条件独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d,该文档被表示成单词向量的形式<w1,w2,…,wm>,多项式朴素贝叶斯(MNB)用下述公式来分类文档d。上述公式中符号C是类标记的集合,m是单词的数目,wi(i=1,2,…m)是文档d中出现的第i个单词,fi是单词wi在文档d中出现的频率,先验概率p(c)以及条件概率p(wi|c)分别用下述公式来估计。其中,n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;fji表示训练文档集D中第j篇文档中出现单词wi的频率。尽管多项式朴素贝叶斯文本分类方法已经被证明具有较高的分类性能,但它的单词条件独立假设在现实中很少成立,因此通过释放它的单词条件独立假设来提高它的分类性能是很自然的想法。一种最直接的方式就是通过增加有向边来表示单词与单词之间的依赖关系。但是由于文本数据高维性的特点,学习一个最优的多项式贝叶斯网络文本分类模型几乎是不可能的。这是因为学习最优的多项式贝叶斯网络文本分类模型不仅消耗空间而且消耗时间。所以一个既能表示单词与单词之间的依赖关系,又没有结构学习的多项式贝叶斯网络文本分类模型是可取的。当前用于改进多项式朴素贝叶斯文本分类模型的方法有很多。这其中包括特征加权、特征选择、实例加权、局部学习等。但是由于文本数据本身的高维性,改进多项式朴素贝叶斯文本分类模型的结构扩展方法非常少,至今仅有一种结构扩展的多项式朴素贝叶斯文本分类方法,并且仅有的这种方法是一种组合学习的方法。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种隐多项式朴素贝叶斯文本分类方法及装置,不仅改善了多项式朴素贝叶斯文本分类模型的分类精度,避免了贝叶斯网络结构学习的时间和空间开销,而且还是一种单一模型学习方法。根据本专利技术的其中一方面,本专利技术解决其技术问题所采用的隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,训练阶段包含如下步骤:(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:进一步地,在本专利技术的的隐多项式朴素贝叶斯文本分类方法中,步骤(1-3)中:Gain(D,wt)通过以下公式计算:其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目,v=0表示没有出现单词wt,表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;SplitInfo(D,wt)通过以下公式计算得到:进一步地,在本专利技术的的隐多项式朴素贝叶斯文本分类方法中,分类阶段包含如下步骤:(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt;其中,三角符号∧表示并且;(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;(2-3)利用以下公式计算p(wi|whi,c)其中,ft是待分类文档d中第t个单词的频率;(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):其中,fi是待分类文档d中第i个单词的频率。根据本专利技术的另一方面,本专利技术为解决其技术问题,还提供了一种隐多项式朴素贝叶斯文本分类装置,具备计算机存储介质,所述计算机存储介质内存储有计算机可执行指令,所述计算机可执行指令用于实现上述任一项的隐多项式朴素贝叶斯文本分类方法。本专利技术基于其技术方案所具有的有益效果在于:本专利技术为了避免结构扩展的多项式朴素贝叶斯网络费时的结构学习过程,为测试文档中出现的每个单词创建一个隐父亲节点,这个隐父亲节点综合了所有其他单词对该单词的影响,从而很好地避免了耗时的贝叶斯网络的结构学习。另外由于文本数据的高维性,在计算多条件概率p(wi|wt,c)时会消耗大量的空间,为了节约空间资源,本专利技术将多条件概率的估计过程推迟到了分类阶段,因为这样只需要根据待分类文档d中出现的单词来计算多条件概率,而不是训练文档集D中的所有单词,这一操作使本方法在计算多条件概率p(wi|wt,c)的空间复杂度由原来的O(sm2)降低到现在的O(s|d|)(s是文档的类别数目,m为训练文档集D中所有单词的数目,|d|是待分类文档d中的单词数目)。更重要的是,相比于仅有的一种结构扩展的多项式朴素贝叶斯文本分类方法,本专利技术提供的方法不是一种组合学习的方法,而是一种单一模型学习方法。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现详细说明本专利技术的具体实施方式。随着网络与通讯技术的飞速发展,网上电子文档、电子邮件、手机短信等信息量成爆炸趋势,本文档来自技高网
...

【技术保护点】
1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:(1‑1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):

【技术特征摘要】
1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:2.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,步骤(1-3)中:Gain(D,wt)通过以下公式计算:其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目,v=0表示没有出现单词wt,表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的...

【专利技术属性】
技术研发人员:蒋良孝邵诗琪陈龙李超群
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1