主题词抽取方法及装置制造方法及图纸

技术编号:15541915 阅读:210 留言:0更新日期:2017-06-05 11:06
本发明专利技术公开了一种主题词抽取方法及装置。其中,该方法包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对词语文档矩阵进行语义分析,生成潜在语义空间;根据潜在语义空间抽取所有需要抽取主题词的文档的主题词。本发明专利技术解决了由于一词多义或多词同义造成的影响主题词抽取质量的技术问题。

Method and device for extracting subject words

The invention discloses a method and a device for extracting subject headings. Among them, the method includes: obtaining all necessary documents and extract theme words appear in the document words; which is built for each word appears in the document frequency of the term document matrix, based on each line of the term document matrix representation of word frequency information of each word in a document, each column represents the frequency a word in the document; analysis model of the semantic analysis of the word document matrix using latent semantic generation, latent semantic space; according to the inscription of latent semantic space from all need extraction of topic documents. The invention solves the technical problem that the quality of the subject word extraction is influenced by the polysemy or multi word synonymy.

【技术实现步骤摘要】
主题词抽取方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种主题词抽取方法及装置。
技术介绍
主题可以体现文档所表达的中心思想,是计算机表达文档的有效方式之一。提取主题信息有助于理解文档的有效信息,提高计算机对文档的处理效率。目前,主题抽取技术是自然语言处理领域一项热门技术。一般地,以汉语主题抽取为例,主题抽取任务中通常分为主题词、主题概念和主题句三个层面。虽然单个主题词不像主题概念和主题句那样,具有明确的意义,但是一个主题词集合可以清晰地描述一个主题,并且更有利于计算机处理。在相关技术中,提供了一种主题词抽取方法,具体执行过程如下:(1)收集大量文档构建大型文档集合,统计词语在所有文档中出现的频率,构建词语-文档的频率模型(InverseDocumentFrequency,简称为IDF);(2)针对需要抽取主题的文档,统计词语在该文档中的词频信息(TermFrequency,简称为TF);(3)构建基于词频信息的加权权重计算模型,确定文档中每个词语的权重值,并按权重值大小对所有词语排序;(4)根据预先设定的阈值,输出上一步排序后的top-n个词语。专利技术人发现,上述技术方法存在以下缺点:(1)基于词频信息的主题词抽取模型,抽取主题词时需要依赖词频信息,容易受高频噪声词影响,导致抽取出来的主题词及其集合容易被高频噪声词污染,不能保证主题词的抽取质量;(2)基于权重值排序的主题词抽取技术,不管权重值计算模型如何变化,都无法考虑每个词语的语义,因而不能解决中文一词多义或多词同义等问题,即不能有效地区分词语的语义,从而影响抽取的主题词及其集合的质量。另外,上述方案需要学习IDF模型,并且IDF模型在不分领域的全网数据中效果明显,而处理相同领域的文档时,效果明显下降,一般需要重新训练该领域的IDF模型,不够灵活。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种主题词抽取方法及装置,以至少解决由于一词多义或多词同义造成的影响主题词抽取质量的技术问题。根据本专利技术实施例的一个方面,提供了一种主题词抽取方法,包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。进一步地,利用潜在语义分析模型对上述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用上述潜在语义分析模型分析上述词语文档矩阵中的词语与文档的对应关系;按照上述对应关系将上述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成上述潜在语义空间。进一步地,利用潜在语义分析模型对上述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对上述词语文档矩阵进行语义分析,生成潜在语义空间。进一步地,根据上述潜在语义空间抽取上述所有需要抽取主题词的文档的主题词包括:根据上述潜在语义空间确定主题词词语矩阵,其中,上述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在上述所有需要抽取主题词的文档中出现的词语;对上述主题词词语矩阵中每一行词语按其权重值排序;抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语作为上述所有需要抽取主题词的文档的主题词。进一步地,获取所有需要抽取主题词的文档以及出现在该文档中的词语包括:获取上述所有需要抽取主题词的文档;对上述所有需要抽取主题词的文档进行分词处理,得到上述出现在该文档中的词语。根据本专利技术实施例的另一方面,还提供了一种主题词抽取装置,包括:获取单元,用于获取所有需要抽取主题词的文档以及出现在该文档中的词语;构建单元,用于基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,上述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;生成单元,用于利用潜在语义分析模型对上述词语文档矩阵进行语义分析,生成潜在语义空间;抽取单元,用于根据上述潜在语义空间抽取上述所有需要抽取主题词的文档的主题词。进一步地,上述生成单元包括:分析模块,用于利用上述潜在语义分析模型分析上述词语文档矩阵中的词语与文档的对应关系;生成模块,用于按照上述对应关系将上述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成上述潜在语义空间。进一步地,上述生成单元还用于利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对上述词语文档矩阵进行语义分析,生成潜在语义空间。进一步地,上述抽取单元包括:确定模块,用于根据上述潜在语义空间确定主题词词语矩阵,其中,上述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在上述所有需要抽取主题词的文档中出现的词语;排序模块,用于对上述主题词词语矩阵中每一行词语按其权重值排序;抽取模块,用于抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语作为上述所有需要抽取主题词的文档的主题词。进一步地,上述获取单元包括:获取模块,用于获取上述所有需要抽取主题词的文档;分词模块,用于对上述所有需要抽取主题词的文档进行分词处理,得到上述出现在该文档中的词语。在本专利技术实施例中,采用基于语义分析结果抽取主题词的方式,通过获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对词语文档矩阵进行语义分析,生成潜在语义空间;根据潜在语义空间抽取所有需要抽取主题词的文档的主题词,达到了基于语义分析结果抽取主题词的目的,从而实现了提高主题词抽取质量的技术效果,进而解决了由于一词多义或多词同义造成的影响主题词抽取质量的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的主题词抽取方法的流程图;图2是根据本专利技术实施例的一种可选的主题词抽取装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步本文档来自技高网
...
主题词抽取方法及装置

【技术保护点】
一种主题词抽取方法,其特征在于,包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。

【技术特征摘要】
1.一种主题词抽取方法,其特征在于,包括:获取所有需要抽取主题词的文档以及出现在该文档中的词语;基于每个词语在该文档中出现的频率构建词语文档矩阵,其中,所述词语文档矩阵的每一行表示各个词语在一篇文档中的词频信息,每一列表示一个词语在各篇文档中的词频信息;利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间;根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词。2.根据权利要求1所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用所述潜在语义分析模型分析所述词语文档矩阵中的词语与文档的对应关系;按照所述对应关系将所述词语文档矩阵中的词语与文档映射到满足预定维度条件的向量空间中,生成所述潜在语义空间。3.根据权利要求1或2所述的方法,其特征在于,利用潜在语义分析模型对所述词语文档矩阵进行语义分析,生成潜在语义空间包括:利用奇异值分解模型或非负矩阵分解模型或概率潜在语义索引模型对所述词语文档矩阵进行语义分析,生成潜在语义空间。4.根据权利要求1所述的方法,其特征在于,根据所述潜在语义空间抽取所述所有需要抽取主题词的文档的主题词包括:根据所述潜在语义空间确定主题词词语矩阵,其中,所述主题词词语矩阵的每一行表示主题词的语义类别,每一列表示在所述所有需要抽取主题词的文档中出现的词语;对所述主题词词语矩阵中每一行词语按其权重值排序;抽取排序后的主题词词语矩阵中权重值大于预设阈值的词语作为所述所有需要抽取主题词的文档的主题词。5.根据权利要求1所述的方法,其特征在于,获取所有需要抽取主题词的文档以及出现在该文档中的词语包括:获取所述所有需要抽取主题词的文档;对所述所有需要抽取主题词的文档进行分词处理,得到所述出现...

【专利技术属性】
技术研发人员:祁国晟徐文斌
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1