一种基于LDA的文本分类方法技术

技术编号：15639362 阅读：47 留言：0更新日期：2017-06-15 23:03

提供一种基于LDA的文本分类方法，提取特征词集输入文本分类模型计算文本归属预定A个类别中的每个类别的概率，取概率值最大的作为其所属类别；预先用训练语料按设定主题数K让LDA主题模型训练，获得K个主题关联词集合；还预先用类别明确的验证语料让文本分类模型进行验证，以获得其对A个类别中各类别的分类准确率；用文本分类模型分类时，如文本分类模型对该类别的分类准确率数值达到设定阈值的就直接输出结果；否则用LDA主题模型计算该篇文本对应K个主题的权重值，选取权重值最大的主题，并将该主题关联词中的前Y个词共同作为扩充后的特征词集，再次用文本分类模型分类；本发明专利技术场景适应性强，结果可用性高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LDA的文本分类方法
本专利技术涉及一种基于LDA的文本分类方法。
技术介绍
文本分类技术是信息检索与数据挖掘领域的核心技术，主要的算法包括贝叶斯、K最近邻、神经网络和SVM等。其中贝叶斯算法在进行文本分类时，假设特征之间是相互独立的，这样很大程度上简化了训练和分类过程，因此具有运行快速、易于实现等特点，目前已成为文本分类中广泛使用的一种方法，吸引了众多学者的关注。有人提出了一种基于期望最大化(EM)的朴素贝叶斯文本分类算法，提高了对未标注语料的利用率。还有人将朴素贝叶斯文本分类算法同SVM算法相结合，提高了分类的准确率。但面对复杂的应用场景及关系复杂的分类体系时分类器往往缺乏适应性，例如学科分类体系，类目数众多且关系复杂，很多学科与学科之间没有明显的界限，重叠现象较为严重。这样对于分类模型来说不确定性较大，加之没有辅助的额外信息，面对重叠的学科文本分类模型往往很难做出正确的判断。LDA(LatentDirichletAllocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域，例如航天航空，生物医学，信息技术等，具体指一系列相关的词所组成的集合。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别文档中潜藏的主题信息。它采用了词袋(bagofwords)的方法，这种方法将每一篇文档视为一...
一种基于LDA的文本分类方法

【技术保护点】
一种基于LDA的文本分类方法，使用贝叶斯概率计算模型作为文本分类模型，提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集，用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率，取概率值最大的类别作为其所属类别；其特征在于，使用LDA主题模型来辅助文本分类模型进行文本分类，所述LDA主题模型是一个“文档‑主题‑词”的三层贝叶斯生成模型；预先用训练语料按设定主题数K让LDA主题模型训练，利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合；还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值；用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤：步骤一、对每一篇待分类文本进行预处理，预处理包括分词、去停留词，并保留专有名词，分别计算该文本的经预处理后...

【技术特征摘要】
1.一种基于LDA的文本分类方法，使用贝叶斯概率计算模型作为文本分类模型，提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集，用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率，取概率值最大的类别作为其所属类别；其特征在于，使用LDA主题模型来辅助文本分类模型进行文本分类，所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型；预先用训练语料按设定主题数K让LDA主题模型训练，利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合；还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证，以获得文本分类模型对A个类别中的每个类别的分类准确率，作为文本分类模型对A个类别中的每个类别的归类可信度指标；该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率，并预设分类准确率阈值；用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤：步骤一、对每一篇待分类文本进行预处理，预处理包括分词、去停留词，并保留专有名词，分别计算该文本的经预处理后的所有词的特性权重，词的特性权重数值与在该文本中出现的次数成正比，与在所述训练语料中出现的次数成反比，将计算所得的词集按其特性权重数值大小降序排列，提取每一篇待分类文本原始词集的前面部分作为其特征词集；步骤二、使用文本分类模型，选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值，选取概率值最大的类别作为该篇文本分类类别；步骤三、对步骤二的文本分类结果进行判断，如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果；如果文本分类模型对该类别的分类准确率数值未达到设定阈值，就进入步骤四；步骤四、将每一篇经预处理的文本输入所述LDA主题模型，用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值，选取权重值最大的主题，并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集，再次使用文本分类模型，分别计算该篇文本可能归属预定A个类别中各个类别的概率值，选取概率值最大的类别作为该篇文本最终分类类别。2.如权利要求1所述的文本分类优化方法，其特征在于，所述文本分类模型的主要计算公式为：其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率；其中P(cj)表示训练文本集中，属于类别cj的文本占总数的比率，P(x1,x2,…,xn|cj)表示...

【专利技术属性】
技术研发人员：刘柏嵩，高元，王洋洋，尹丽玲，费晨杰，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人