基于LDA主题模型的文献分类方法和系统技术方案

技术编号：20622546 阅读：72 留言：0更新日期：2019-03-20 14:25

本发明专利技术公开了一种基于LDA主题模型的文献分类方法，包括以下步骤：步骤一、预编初始监督字典，初始监督字典里的词包括多个类，并且与LDA主题模型的主题一一对应；步骤二、获取待分类文献中的所有的词，并计算每个词属于每个主题的概率，获得聚类字典；步骤三、根据聚类字典组成新的监督字典；步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题，将出现的词最多的主题作为该篇文献的主题，完成对待分类文献的分类。本发明专利技术还公开了一种基于LDA主题模型的文献分类系统。本发明专利技术的方法既保持了规则分类方法的准确性，又具有LDA的联想聚类能力，分类结果准确，工程量小。

Document Classification Method and System Based on LDA Topic Model

The invention discloses a document classification method based on LDA subject model, which includes the following steps: first, preedit the initial supervisory dictionary, the words in the initial supervisory dictionary include multiple classes, and correspond to the subject of LDA subject model one by one; second, obtain all the words in the document to be classified, and calculate the probability that each word belongs to each subject to obtain the clustering dictionary; Thirdly, a new supervisory dictionary is formed according to the clustering dictionary. Fourthly, the topic corresponding to the words in the new supervisory dictionary contained in each document to be classified is searched, and the topic with the most words is taken as the theme of the document to complete the classification of the classified documents. The invention also discloses a document classification system based on LDA subject model. The method of the invention not only maintains the accuracy of the rule classification method, but also has the association clustering ability of LDA, the classification result is accurate and the amount of engineering is small.

全部详细技术资料下载

【技术实现步骤摘要】
基于LDA主题模型的文献分类方法和系统
本专利技术涉及文献分类
，具体是一种基于LDA主题模型的文献分类方法和系统。
技术介绍
现有的分类方法，无论是规则法、统计法还是深度学习方法，都依赖于大量标注语料来实现的。现实中，得到全部标注语料是非常困难的，往往只能确定部分语料和关键词，也就是，要在部分先验知识的前提下，得到高精度的分类结果。这里的技术矛盾体现为，标注语料的全部和部分、无限和有限之间的矛盾。用有限的样本进行统计分类，随着上下文的不同，会严重的损害分类的召回率，即对于一些明显的分类结果，经过计算之后，会出现意想不到的分类结果。比如出现“三维水平井钻井”这个词串的时候，在一个句子长度有限意义专一的标题里，都应该属于“钻井工程”这个类，如“苏东区块三维水平井钻井难点分析”，但是经过统计分析后的“长庆致密油三维水平井钻井技术研究与应用”被计算成为“成藏研究”，显然这个计算结果是错误的。因此需要一个分类方法，既要保持规则分类的召回率，又要有模型分类的发现和联想的能力。LDA计算出来的最佳聚类只有一个，但是现实中需要挖掘的属性有很多，因此LDA也不能满足分类的要求。纯粹的LDA聚类不能表达人的想法，因此在实际中不能实现分类。
技术实现思路
本专利技术的一个目的是解决至少上述问题，并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种基于LDA主题模型的文献分类方法和系统，其可以在有限先验知识的前提下实现大规模的分类；通过加载初始监督字典或获得的不同的新的监督字典，可以实现文献的多属性挖掘；通过对获得的不同的新的监督字典的不断人工校对，即不断加强监督学习...

【技术保护点】
1.基于LDA主题模型的文献分类方法，其特征在于，包括以下步骤：步骤一、预编初始监督字典，初始监督字典里的词包括多个类，并且与LDA主题模型的主题一一对应；步骤二、获取待分类文献中的所有的词，并计算每个词属于每个主题的概率，将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题，获得聚类字典；步骤三、根据聚类字典，对于每个主题中的词根据其出现的频率由高到低进行排序，抽取前M％个词加入初始监督字典组成新的监督字典，其中，M为大于或等于1的整数；步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题，将出现的词最多的主题作为该篇文献的主题，完成对待分类文献的分类。

【技术特征摘要】
1.基于LDA主题模型的文献分类方法，其特征在于，包括以下步骤：步骤一、预编初始监督字典，初始监督字典里的词包括多个类，并且与LDA主题模型的主题一一对应；步骤二、获取待分类文献中的所有的词，并计算每个词属于每个主题的概率，将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题，获得聚类字典；步骤三、根据聚类字典，对于每个主题中的词根据其出现的频率由高到低进行排序，抽取前M％个词加入初始监督字典组成新的监督字典，其中，M为大于或等于1的整数；步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题，将出现的词最多的主题作为该篇文献的主题，完成对待分类文献的分类。2.如权利要求1所述的文献分类方法，其特征在于，步骤一中的多个类包括N个类和一个其他类，N为大于1的整数，其他类中收纳了不属于N个类的词，N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。3.如权利要求2所述的文献分类方法，其特征在于，N个类按照感情色彩进行分类时，包括正向情感类、负向情感类、中性情感类，其他类中收纳了与感情色彩无关的词。4.如权利要求2所述的文献分类方法，其特征在于，步骤二中，先对待分类文献中的词进行中文分词处理，再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词，获取待分类文献中的所有的词，其中，待分类文献的所有的词包括待分类文献的标题或正文中出现的词。5.如权利要求4所述的文献分类方法，其特征在于，步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题，其具体操作为：判断待分类文献中的每个词是否包含于初始监督字典中，若包含，则将该词对应的所属主题的概率调整为1，属于其他主题的概率调整...

【专利技术属性】
技术研发人员：史晓凌，唐先明，景帅，刘锋，陈新荣，王晓丽，
申请(专利权)人：北明智通北京科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人