基于LDA主题模型的文献分类方法和系统技术方案

技术编号:20622546 阅读:72 留言:0更新日期:2019-03-20 14:25
本发明专利技术公开了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,获得聚类字典;步骤三、根据聚类字典组成新的监督字典;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。本发明专利技术还公开了一种基于LDA主题模型的文献分类系统。本发明专利技术的方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。

Document Classification Method and System Based on LDA Topic Model

The invention discloses a document classification method based on LDA subject model, which includes the following steps: first, preedit the initial supervisory dictionary, the words in the initial supervisory dictionary include multiple classes, and correspond to the subject of LDA subject model one by one; second, obtain all the words in the document to be classified, and calculate the probability that each word belongs to each subject to obtain the clustering dictionary; Thirdly, a new supervisory dictionary is formed according to the clustering dictionary. Fourthly, the topic corresponding to the words in the new supervisory dictionary contained in each document to be classified is searched, and the topic with the most words is taken as the theme of the document to complete the classification of the classified documents. The invention also discloses a document classification system based on LDA subject model. The method of the invention not only maintains the accuracy of the rule classification method, but also has the association clustering ability of LDA, the classification result is accurate and the amount of engineering is small.

【技术实现步骤摘要】
基于LDA主题模型的文献分类方法和系统
本专利技术涉及文献分类
,具体是一种基于LDA主题模型的文献分类方法和系统。
技术介绍
现有的分类方法,无论是规则法、统计法还是深度学习方法,都依赖于大量标注语料来实现的。现实中,得到全部标注语料是非常困难的,往往只能确定部分语料和关键词,也就是,要在部分先验知识的前提下,得到高精度的分类结果。这里的技术矛盾体现为,标注语料的全部和部分、无限和有限之间的矛盾。用有限的样本进行统计分类,随着上下文的不同,会严重的损害分类的召回率,即对于一些明显的分类结果,经过计算之后,会出现意想不到的分类结果。比如出现“三维水平井钻井”这个词串的时候,在一个句子长度有限意义专一的标题里,都应该属于“钻井工程”这个类,如“苏东区块三维水平井钻井难点分析”,但是经过统计分析后的“长庆致密油三维水平井钻井技术研究与应用”被计算成为“成藏研究”,显然这个计算结果是错误的。因此需要一个分类方法,既要保持规则分类的召回率,又要有模型分类的发现和联想的能力。LDA计算出来的最佳聚类只有一个,但是现实中需要挖掘的属性有很多,因此LDA也不能满足分类的要求。纯粹的LDA聚类不能表达人的想法,因此在实际中不能实现分类。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于LDA主题模型的文献分类方法和系统,其可以在有限先验知识的前提下实现大规模的分类;通过加载初始监督字典或获得的不同的新的监督字典,可以实现文献的多属性挖掘;通过对获得的不同的新的监督字典的不断人工校对,即不断加强监督学习的过程,可以实现准确度的不断提高。本方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。优选的是,步骤一中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。优选的是,N个类按照感情色彩进行分类时,包括正向情感类、负向情感类、中性情感类,其他类中收纳了与感情色彩无关的词。优选的是,步骤二中,先对待分类文献中的词进行中文分词处理,再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词,获取待分类文献中的所有的词,其中,待分类文献的所有的词包括待分类文献的标题或正文中出现的词。优选的是,步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,其具体操作为:判断待分类文献中的每个词是否包含于初始监督字典中,若包含,则将该词对应的所属主题的概率调整为1,属于其他主题的概率调整为0,若不包含,则不进行处理,获得的聚类字典中收纳了待分类文献中经过判断的所有的词及该所有的词所属的主题。基于LDA主题模型的文献分类系统,包括:初始监督字典模块,其用于预先设置词所属的类,预先设置多个已知的词,一个词属于一个类,一个类对应LDA主题模型的一个主题;文件处理模块,其用于获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;字典整理模块,其用于对聚类字典中的每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;输出文件模块,其用于根据新的监督字典查找每篇文献包含新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,并输出该篇文献和其对应的主题。优选的是,初始监督字典模块中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。优选的是,还包括:初步降噪模块,其用于除去待分类文献中出现的属于初始监督字典中的其他类的词,以供文件处理模块进行处理。优选的是,所述文件处理模块包括语料模块和词模块,语料模块用于将待分类的文献按照语料格式读入,语料格式包括待分类文献的ID、标题、正文,词模块用于将待分类文献的标题或正文中出现的词按照字典格式读入,字典格式设置了与LDA主题模型的主题一致的主题。本专利技术至少包括以下有益效果:本专利技术通过对LDA主题模型进行监督(supervised),即将LDA的主题当作类,将已知的属于类的词作为初始监督字典,在LDA主题模型的循环迭代中,对中间结果(中间结果即对得到的待分类文献中的词)进行类别判断和调整;这样既发挥了LDA聚类发现的能力,又保持了根据字典初始监督字典的规则进行分类的精确性;从数学上看,是将无约束条件的全局LDA最优方法改造成带约束条件的部分最优方法。本专利技术对聚类字典进行人工检验,将新出现的词确认之后,就得到一副新的监督字典;随着这个过程的不断深入,最终会通过聚类的方法穷举出属于这个主题(即这个类)的所有的词,形成一个不断更新、越来越准确的字典,从而对待分类文献进行准确的分类。本专利技术在每一次分类结束后都会得到一部新的监督字典,通过调用不同的新的监督字典,就可以在新的监督字典的监督下,聚出所需要的类别,也就是实现对待分类文献的文本的多属性挖掘。本专利技术是基于LDA主题模型的文献分类方法和系统,可以在有限先验知识的前提下实现大规模的分类;通过加载初始监督字典或获得的不同的新的监督字典,可以实现文献的多属性挖掘;通过对获得的不同的新的监督字典的不断人工校对,即不断加强监督学习的过程,可以实现准确度的不断提高。本方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。本专利技术提供了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;初始监督字典里预先设置多个已知的词,同时预先设置了词所属的类,使一个已知的词仅属于一个类,一个类对应LDA主题模型的一个主题;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;聚类字典中包括了待分类文献中出现的属于初始本文档来自技高网...

【技术保护点】
1.基于LDA主题模型的文献分类方法,其特征在于,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。

【技术特征摘要】
1.基于LDA主题模型的文献分类方法,其特征在于,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。2.如权利要求1所述的文献分类方法,其特征在于,步骤一中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。3.如权利要求2所述的文献分类方法,其特征在于,N个类按照感情色彩进行分类时,包括正向情感类、负向情感类、中性情感类,其他类中收纳了与感情色彩无关的词。4.如权利要求2所述的文献分类方法,其特征在于,步骤二中,先对待分类文献中的词进行中文分词处理,再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词,获取待分类文献中的所有的词,其中,待分类文献的所有的词包括待分类文献的标题或正文中出现的词。5.如权利要求4所述的文献分类方法,其特征在于,步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,其具体操作为:判断待分类文献中的每个词是否包含于初始监督字典中,若包含,则将该词对应的所属主题的概率调整为1,属于其他主题的概率调整...

【专利技术属性】
技术研发人员:史晓凌唐先明景帅刘锋陈新荣王晓丽
申请(专利权)人:北明智通北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1