词语提取方法及装置制造方法及图纸

技术编号：9569036 阅读：79 留言：0更新日期：2014-01-16 02:36

本发明专利技术公开了一种词语抽取方法，属于信息检索领域。所述方法包括：获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；处理所述目标文档获得候选词语；根据文档信息计算每个候选词语的词频TF和反向文档频率IDF；根据词频TF和反向文档频率IDF的乘积对候选词语排序，并根据排序结果提取词语。本发明专利技术通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF，解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题；根据文档信息选取的具体类型，可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。

全部详细技术资料下载

【技术实现步骤摘要】
词语提取方法及装置
本专利技术涉及信息检索领域，特别涉及一种词语提取方法及装置。
技术介绍
在中文信息处理和信息检索领域中，人们需要快速地了解一篇文档的内容时，通常是提取几个词语或者短语，作为该文档的主要内容的提要。根据不同的应用场景，提取到的词语或者短语可以称之为关键字、线索词或者标签。现有技术中，通常采用的一种词语提取方法包括：第一，从文档中选取候选词语；具体地讲，候选词语一般是单个词或者由多个单词组成的短语。在英文文档中，每个词都是以空格作为自然分界符，选取候选词语较为简单；在中文文档中，可以通过语义分析来分割文档中的语句，从而获得各种词性模式的词语，词性包括形容词、名词、动词、介词和量词等，然后将某种词性模式的词语作为候选词语；第二，在候选词语中提取具有代表性的词语。具体地讲，可以对候选词语进行某种方式的统计，根据候选词语的统计性质对每个候选词语进行排序，选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时，第二步骤中通常采用的排序方法为TF-IDF（TermFrequency-InverseDocumentFrequency，词频-反向文档频率）。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题：现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计，最终提取到的词语并不能够准确地代表特定领域的特性。
技术实现思路
为了提取更具有领域代表性的词语，本专利技术实施例提供了一种词语提取方法及装置。所述技术方案如下：一方面，本专利技术实施例提供了一种词语提取方法，所述方法包括：获取至少一个目标文档和...

【技术保护点】
一种词语抽取方法，其特征在于，所述方法包括：获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；处理所述目标文档获得候选词语；根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF；根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。

【技术特征摘要】
1.一种词语抽取方法，其特征在于，所述方法包括：获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种，所述文档权重信息通过所述目标文档的点击数或者网页级别PageRank值来计算，所述文档地域权重信息通过所述目标文档在预定地域的点击数或者PageRank值来计算，所述文档时间权重信息通过所述目标文档的创建时间和当前时间之间的差值来计算；处理所述目标文档获得候选词语；根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF；根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。2.根据权利要求1所述的词语抽取方法，其特征在于，所述处理所述目标文档获得候选词语，具体包括：对所述目标文档的正文进行分词，以获得至少一个词语；对所述词语进行词性分析；根据所述词语的词性识别所述词语的实体信息；将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。3.根据权利要求1所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF，具体包括：对于候选词语ti，根据文档信息wj计算词频TFi，j为：其中，TFi，j为所述候选词语ti在目标文档dj中的词频，ni，j为所述候选词语ti在目标文档dj中的出现次数，Σknk,j为所述目标文档dj中所有词语的出现次数之和。4.根据权利要求1所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF，具体包括：对于候选词语ti，根据文档信息wj计算反向文档频率IDFi为：其中，IDFi是所述候选词语ti的反向文档频率，|D|是总文档库中的文档数之和，是所述总文档库中包含所述候选词语ti的文档的文档信息之和，所述总文档库包括参考文档库和包括所述至少一个目标文档的目标文档库；当计算为0时，令等于固定常数，所述固定常数的取值范围为(0，0.01)。5.根据权利要求3或4所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF之前，还包括：计算所述文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种；所述文档权重信息为：其中，hits(dj)为文档dj的点击数，Max(hits(di)，1＜i＜N)表示文档库中最大的文档点击数；或者，所述文档地域权重信息为：其中，hits(dj)为文档dj在预定地域的点击数，Max(hits(di)，1＜i＜N)表示文档库中在所述预定地域最大的文档点击数；或者，所述文档时间权重信息为：其中，T0为文档dj的创建时间，T1为当前时间，当计算|T1-T0|为0时，令|T1-T0|等于固定常数，所述固定常数的取值范围为(0，0.01)；所述文档dj为目标文档时，所述文档库为包括所述至少一个目标文档的目标文档库；所述文档dj为参考文档时，所述文档库为参考文档库。6.一种词语抽取装置，其特征在于，所述装置包括：文档获取模块，用...

【专利技术属性】
技术研发人员：贾江涛，顾翀，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人