一种隐多项式朴素贝叶斯文本分类方法及装置制造方法及图纸

技术编号：21914041 阅读：29 留言：0更新日期：2019-08-21 12:27

本发明专利技术提供了一种隐多项式朴素贝叶斯文本分类方法及装置，为测试文档中出现的每个单词创建一个隐父亲节点，这个隐父亲节点综合了所有其他单词对该单词的影响。本发明专利技术避免了贝叶斯网络的结构学习，从而降低了由于文本数据的高维性带来的训练时间开销，同时本发明专利技术将多条件概率的估计过程推迟到了分类阶段，巧妙地节省了较大的空间开销。本发明专利技术提供的隐多项式朴素贝叶斯文本分类模型不仅改善了多项式朴素贝叶斯文本分类模型的分类精度，避免了贝叶斯网络结构学习的时间和空间开销，而且还是一种单一模型学习方法。

A Naive Bayesian Text Classification Method and Device for Implicit Polynomials

全部详细技术资料下载

【技术实现步骤摘要】
一种隐多项式朴素贝叶斯文本分类方法及装置
本专利技术涉及一种隐多项式朴素贝叶斯文本分类方法及装置，属于人工智能数据挖掘分类

技术介绍
随着网络与通讯技术的飞速发展，网上电子文档、电子邮件、手机短信等信息量成爆炸趋势，大规模的文本处理已经成为一个挑战，而文本自动分类是将文本划分到预定义的类中，成为帮助人们检索、查询、过滤和利用信息的有效手段。文本分类具有是非广泛的应用场景，比如垃圾邮件的判定、手机短信的过滤、新闻出版按照栏目分类、词性标注、词义排歧、科技论文分类等等。朴素贝叶斯文本分类器因为其简单性和高效性经常被用来处理文本分类问题，但是它的单词条件独立假设在使它变得高效的同时在一定程度上影响了它的分类性能。给定一篇文档d，该文档被表示成单词向量的形式＜w1,w2,…,wm＞，多项式朴素贝叶斯(MNB)用下述公式来分类文档d。上述公式中符号C是类标记的集合，m是单词的数目，wi(i＝1,2,…m)是文档d中出现的第i个单词，fi是单词wi在文档d中出现的频率，先验概率p(c)以及条件概率p(wi|c)分别用下述公式来估计。其中，n是训练文档集D中的文档数目，s是文档的类别数目，cj是第j篇文档的类标记，δ(cj,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；fji表示训练文档集D中第j篇文档中出现单词wi的频率。尽管多项式朴素贝叶斯文本分类方法已经被证明具有较高的分类性能，但它的单词条件独立假设在现实中很少成立，因此通过释放它的单词条件独立假设来提高它的分类性能是很自然的想法。一种最直接的方式就是通过增加有向边来表示单词与单词之间的依赖...

【技术保护点】
1.一种隐多项式朴素贝叶斯文本分类方法，包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段，其特征在于，训练阶段包含如下步骤：(1‑1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c)：

【技术特征摘要】
1.一种隐多项式朴素贝叶斯文本分类方法，包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段，其特征在于，训练阶段包含如下步骤：(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c)：其中，训练文档集D为一个已知的文档集，训练文档集D中的任意一篇文档d表示为单词向量形式d＝＜w1,w2,...wm＞，其中wi为文档d中的第i个单词，m为训练文档集D中所有单词的数目；n是训练文档集D中的文档数目，s是文档的类别数目，cj是第j篇文档的类标记，δ(cj,c)表示一个二元函数，当它的两个参数相同时值为1否则为0；(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c)：其中，fji表示训练文档集D中第j篇文档中出现单词wi的频率；(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率：其中，GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率，Gain(D,wt)表示单词wt划分训练文档集D的信息增益，SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息；(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率：(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt，模型训练完毕：2.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法，其特征在于，步骤(1-3)中：Gain(D,wt)通过以下公式计算：其中，|Dv|是训练文档集D中单词wt的取值为v的文档数目，v＝0表示没有出现单词wt，表示出现单词wt，|D|＝n；Entropy(D)是训练文档集D的熵，通过以下公式计算：其中，C是类标记的集合，c是C中的...

【专利技术属性】
技术研发人员：蒋良孝，邵诗琪，陈龙，李超群，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人