当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于LDA的文本分类方法技术

技术编号:15639362 阅读:47 留言:0更新日期:2017-06-15 23:03
提供一种基于LDA的文本分类方法,提取特征词集输入文本分类模型计算文本归属预定A个类别中的每个类别的概率,取概率值最大的作为其所属类别;预先用训练语料按设定主题数K让LDA主题模型训练,获得K个主题关联词集合;还预先用类别明确的验证语料让文本分类模型进行验证,以获得其对A个类别中各类别的分类准确率;用文本分类模型分类时,如文本分类模型对该类别的分类准确率数值达到设定阈值的就直接输出结果;否则用LDA主题模型计算该篇文本对应K个主题的权重值,选取权重值最大的主题,并将该主题关联词中的前Y个词共同作为扩充后的特征词集,再次用文本分类模型分类;本发明专利技术场景适应性强,结果可用性高。

【技术实现步骤摘要】
一种基于LDA的文本分类方法
本专利技术涉及一种基于LDA的文本分类方法。
技术介绍
文本分类技术是信息检索与数据挖掘领域的核心技术,主要的算法包括贝叶斯、K最近邻、神经网络和SVM等。其中贝叶斯算法在进行文本分类时,假设特征之间是相互独立的,这样很大程度上简化了训练和分类过程,因此具有运行快速、易于实现等特点,目前已成为文本分类中广泛使用的一种方法,吸引了众多学者的关注。有人提出了一种基于期望最大化(EM)的朴素贝叶斯文本分类算法,提高了对未标注语料的利用率。还有人将朴素贝叶斯文本分类算法同SVM算法相结合,提高了分类的准确率。但面对复杂的应用场景及关系复杂的分类体系时分类器往往缺乏适应性,例如学科分类体系,类目数众多且关系复杂,很多学科与学科之间没有明显的界限,重叠现象较为严重。这样对于分类模型来说不确定性较大,加之没有辅助的额外信息,面对重叠的学科文本分类模型往往很难做出正确的判断。LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。主题是指某个定义好的专业领域或者兴趣领域,例如航天航空,生物医学,信息技术等,具体指一系列相关的词所组成的集合。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别文档中潜藏的主题信息。它采用了词袋(bagofwords)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。LDA主题模型是自然语言处理中主题挖掘的典型模型,可以从文本语料中抽取潜在的主题,提供一个量化研究主题的方法,已经被广泛的应用到学术资源的主题发现中,如研究热点挖掘、研究主题演化、研究趋势预测等。当然,专利文献是高度标准化的文献,其自身都具有明确的分类标志,大多数的学术论文自身都具有明确的分类标志,所以专利文献与大多数的学术论文的分类不成问题。但是,随着互联网的发现,互联网充塞着大量的各种新闻、博客、会议记要等各种方式的信息文本,这类信息文本或多或少包括学术相关的信息内容,而且往往包括最新的学术研究信息,为各类学科人士所关心,而这类信息文本杂乱无序,往往学科重叠,自身一般没有分类信息;现有技术对这类信息文本往往很难做出正确的自动分类。本专利技术正是为了解决上述技术问题。
技术实现思路
本专利技术所要解决的技术问题是针对上述技术现状,提供一种文本分类优化方法。本专利技术解决上述技术问题所采用的技术方案为:一种基于LDA的文本分类方法,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,原始特征词集就是将原始词集按特性权重排序后的前面部分,用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;其特征在于,使用LDA主题模型来辅助文本分类模型进行文本分类,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型;预先用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合;还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。以上所述方法的所述文本分类模型的主要计算公式为:其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示如果待分类文本属于类别cj,则这篇文本的特征词集为(x1,x2,…,xn)的概率,P(c1,c2,…,cn)表示给定的所有类别的联合概率。按照通常将学科分类习惯,可将所有学科分为75个学科类别,即所述类别数A为75,所述文本分类模型进行分类验证时预设分类准确率阈值为80%。利用LDA主题模型训练时设定主题数K为100至200个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集中前20%至25%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为10至20个词。进一步的方案,利用LDA主题模型训练时设定主题数K为100个或150个,所述步骤二使用文本分类模型,选取每一篇待分类文本原始词集的前22%作为特征词用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,所述步骤四主题关联词中的前Y个词中Y取值为15个词。所述主题模型训练的关键是对隐含变量分布的推断,即获取目标文本的隐含文本-主题分布θ和主题-词分布若给定模型参数α,β,则文本d的随机变量θ、z和w的联合分布为:以上所述方法在训练过程中,算法只对主题变量zi进行抽样,其条件概率计算公式如下:其中,等式左边含义为:当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率;等式右边ni-1为第k个主题下第i个单词个数减去1;nk-1为该文档第k个主题的个数减去1;第一个乘子为wi这个词在k号主题下的概率;第二个乘子为第k个主题在该篇文档里的概率。以上方法可采用Gibbs抽样算法来提取模型参数,抽样具体子步骤为:a)初始化,为每个词wi随机分配主题,zi是词的主题,将zi初始化为本文档来自技高网
...
一种基于LDA的文本分类方法

【技术保护点】
一种基于LDA的文本分类方法,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;其特征在于,使用LDA主题模型来辅助文本分类模型进行文本分类,所述LDA主题模型是一个“文档‑主题‑词”的三层贝叶斯生成模型;预先用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合;还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。...

【技术特征摘要】
1.一种基于LDA的文本分类方法,使用贝叶斯概率计算模型作为文本分类模型,提取最能体现该篇待分类文本特性的一组特征词作为用于输入文本分类模型的特征词集,用所述文本分类模型计算所述特征词组合归属预定A个类别中的每个类别的概率,取概率值最大的类别作为其所属类别;其特征在于,使用LDA主题模型来辅助文本分类模型进行文本分类,所述LDA主题模型是一个“文档-主题-词”的三层贝叶斯生成模型;预先用训练语料按设定主题数K让LDA主题模型训练,利用LDA主题模型训练时的聚词功能在训练语料经LDA主题模型训练后获得按设定主题数K分别聚集成K个主题关联词集合;还预先用类别明确的验证语料按预定类别数A让所述文本分类模型进行分类验证,以获得文本分类模型对A个类别中的每个类别的分类准确率,作为文本分类模型对A个类别中的每个类别的归类可信度指标;该准确率为被文本分类模型分到某个类别的所有验证语料中属被正确分类的语料的比率,并预设分类准确率阈值;用所述文本分类模型对每一篇待分类文本进行文本分类时具体包括以下步骤:步骤一、对每一篇待分类文本进行预处理,预处理包括分词、去停留词,并保留专有名词,分别计算该文本的经预处理后的所有词的特性权重,词的特性权重数值与在该文本中出现的次数成正比,与在所述训练语料中出现的次数成反比,将计算所得的词集按其特性权重数值大小降序排列,提取每一篇待分类文本原始词集的前面部分作为其特征词集;步骤二、使用文本分类模型,选取每一篇待分类文本原始特征词集用来分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本分类类别;步骤三、对步骤二的文本分类结果进行判断,如果文本分类模型对该类别的分类准确率数值达到设定阈值就直接输出结果;如果文本分类模型对该类别的分类准确率数值未达到设定阈值,就进入步骤四;步骤四、将每一篇经预处理的文本输入所述LDA主题模型,用LDA主题模型计算出该篇文本对应所设定的K个主题中的每个主题的权重值,选取权重值最大的主题,并将预先经LDA主题模型训练后所得到的该主题下的主题关联词中的前Y个词加入至该篇文本的原始特征词集之中共同作为扩充后的特征词集,再次使用文本分类模型,分别计算该篇文本可能归属预定A个类别中各个类别的概率值,选取概率值最大的类别作为该篇文本最终分类类别。2.如权利要求1所述的文本分类优化方法,其特征在于,所述文本分类模型的主要计算公式为:其中P(cj|x1,x2,…,xn)表示特征词(x1,x2,…,xn)同时出现时该文本属于类别cj的概率;其中P(cj)表示训练文本集中,属于类别cj的文本占总数的比率,P(x1,x2,…,xn|cj)表示...

【专利技术属性】
技术研发人员:刘柏嵩高元王洋洋尹丽玲费晨杰
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1