The invention discloses a method and a device for extracting subject headings. Among them, the method includes: obtaining all necessary documents and extract theme words appear in the document words; which is built for each word appears in the document frequency of the term document matrix, based on each line of the term document matrix representation of word frequency information of each word in a document, each column represents the frequency a word in the document; analysis model of the semantic analysis of the word document matrix using latent semantic generation, latent semantic space; according to the inscription of latent semantic space from all need extraction of topic documents. The invention solves the technical problem that the quality of the subject word extraction is influenced by the polysemy or multi word synonymy.
【技术实现步骤摘要】
主题词抽取方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种主题词抽取方法及装置。
技术介绍
主题可以体现文档所表达的中心思想,是计算机表达文档的有效方式之一。提取主题信息有助于理解文档的有效信息,提高计算机对文档的处理效率。目前,主题抽取技术是自然语言处理领域一项热门技术。一般地,以汉语主题抽取为例,主题抽取任务中通常分为主题词、主题概念和主题句三个层面。虽然单个主题词不像主题概念和主题句那样,具有明确的意义,但是一个主题词集合可以清晰地描述一个主题,并且更有利于计算机处理。在相关技术中,提供了一种主题词抽取方法,具体执行过程如下:(1)收集大量文档构建大型文档集合,统计词语在所有文档中出现的频率,构建词语-文档的频率模型(InverseDocumentFrequency,简称为IDF);(2)针对需要抽取主题的文档,统计词语在该文档中的词频信息(TermFrequency,简称为TF);(3)构建基于词频信息的加权权重计算模型,确定文档中每个词语的权重值,并按权重值大小对所有词语排序;(4)根据预先设定的阈值,输出上一步排序后的top-n个词语。专利技术人发现,上述技术方法存在以下缺点:(1)基于词频信息的主题词抽取模型,抽取主题词时需要依赖词频信息,容易受高频噪声词影响,导致抽取出来的主题词及其集合容易被高频噪声词污染,不能保证主题词的抽取质量;(2)基于权重值排序的主题词抽取技术,不管权重值计算模型如何变化,都无法考虑每个词语的语义,因而不能解决中文一词多义或多词同义等问题,即不能有效地区分词语的语义,从而影响抽取的主题词及其集合的质量 ...
【技术保护点】
一种主题词抽取方法,其特征在于,包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。
【技术特征摘要】
1.一种主题词抽取方法,其特征在于,包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。2.根据权利要求1所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用所述潜在语义分析模型分析所述词语文档矩阵中的词语与文档的对应关系;按照所述对应关系将所述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成所述潜在语义空间。3.根据权利要求1或2所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对所述词语文档矩阵进行语义分析,生成潜在语义空间。4.根据权利要求1所述的方法,其特征在于,根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词包括:根据所述潜在语义空间确定主题词词语矩阵,其中,所述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在所述所有需要抽取主题词的文档中出现的词语;对所述主题词词语矩阵中每一行词语按其权重值排序;抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语作为所述所有需要抽取主题词的文档的主题词。5.根据权利要求1所述的方法,其特征在于,获取所有需要抽取主题词的文档以及出现在该文档中的词语包括:获取所述所有需要抽取主题词的文档;对所述所有需要抽取主题词的文档进行分词处理,得到所述出现...
【专利技术属性】
技术研发人员:祁国晟,徐文斌,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。