词语提取方法及装置制造方法及图纸

技术编号:9569036 阅读:79 留言:0更新日期:2014-01-16 02:36
本发明专利技术公开了一种词语抽取方法,属于信息检索领域。所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据文档信息计算每个候选词语的词频TF和反向文档频率IDF;根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。本发明专利技术通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。

【技术实现步骤摘要】
词语提取方法及装置
本专利技术涉及信息检索领域,特别涉及一种词语提取方法及装置。
技术介绍
在中文信息处理和信息检索领域中,人们需要快速地了解一篇文档的内容时,通常是提取几个词语或者短语,作为该文档的主要内容的提要。根据不同的应用场景,提取到的词语或者短语可以称之为关键字、线索词或者标签。现有技术中,通常采用的一种词语提取方法包括:第一,从文档中选取候选词语;具体地讲,候选词语一般是单个词或者由多个单词组成的短语。在英文文档中,每个词都是以空格作为自然分界符,选取候选词语较为简单;在中文文档中,可以通过语义分析来分割文档中的语句,从而获得各种词性模式的词语,词性包括形容词、名词、动词、介词和量词等,然后将某种词性模式的词语作为候选词语;第二,在候选词语中提取具有代表性的词语。具体地讲,可以对候选词语进行某种方式的统计,根据候选词语的统计性质对每个候选词语进行排序,选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时,第二步骤中通常采用的排序方法为TF-IDF(TermFrequency-InverseDocumentFrequency,词频-反向文档频率)。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计,最终提取到的词语并不能够准确地代表特定领域的特性。
技术实现思路
为了提取更具有领域代表性的词语,本专利技术实施例提供了一种词语提取方法及装置。所述技术方案如下:一方面,本专利技术实施例提供了一种词语提取方法,所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。另一方面,本专利技术实施例提供了一种词语提取装置,所述装置包括:文档获取模块,用于获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;文档处理模块,用于处理所述目标文档获得候选词语;参数计算模块,用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;词语提取模块,用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。本专利技术实施例提供的技术方案带来的有益效果是:通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本专利技术实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的词语提取方法的方法流程图;图2是本专利技术实施例二提供的词语提取方法的方法流程图;图3是本专利技术实施例三提供的词语提取方法的方法流程图;图4是本专利技术实施例四提供的词语提取方法的方法流程图;图5是本专利技术实施例五提供的词语提取装置的一种结构方框图;图6是本专利技术实施例五提供的词语提取装置的另一结构方框图;图7是本专利技术实施例五提供的词语提取装置的再一结构方框图;图8是本专利技术实施例五提供的词语提取装置的又一结构方框图;图9是本专利技术实施例五提供的词语提取装置的还一结构方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本文的重点和难点之一为:在原有TF-IDF排序方法的基础上,结合诸如文档权重信息、时间权重信息之类的文档信息的计算,从而形成改进的TF-IDF排序方法,以便达到更好的词语排序和提取效果。实施例一请参考图1,其示出了本专利技术实施例一提供的词语提取方法的方法流程图。该词语提取方法可以包括:步骤102,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地,还需要获取每个目标文档对应的文档信息,文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种。其中,文档权重信息可以通过目标文档的点击数或者PageRank(也称网页级别,Google排名运算法则的一部分)值来计算;文档地域权重信息可以通过目标文档在预定地域的点击数或者PageRank值来计算;文档时间权重信息可以通过目标文档的创建时间和当前时间之间的差值来计算。步骤104,处理目标文档获得候选词语;对若干篇目标文档可以进行提取候选词语的处理,该处理过程可以包括:第一,对目标文档的正文进行分词,以获得至少一个词语;第二,对分词获得的词语进行词性分析,词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等;第三,根据词语的词性识别词语的实体信息,实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等;第四,将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语,比如,预定词性可以是形容词+动词。步骤106,根据文档信息计算候选词语的词频TF和反向文档频率IDF;根据文档信息来计算每个候选词语的词频TF和反向文档频率IDF。简单来讲,对于每个候选词语在一篇目标文档中的词频TF,都需要乘以该目标文档的文档信息来计算;对于每个候选词语的反向文档频率IDF,都需要结合所有目标文档和参考文档的文档信息来计算。其中,参考文档可以为大于3000篇的领域色彩较为中性的文档,比如参考文档可以是人民日报或者新闻报道之类的文档。步骤108,根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。对于每一个候选词语,都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序,并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。综上所述,本实施例提供的词语提取方法,通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,本专利技术实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。实施例二请参考图2,其示出了本专利技术实施例二提供的词语提取方法的方法流程图。本实施例中,以文档信息为文档权重信息为例来描述,该词语提取方法可以包括:步骤201,获取至少一个目标文档和与目标文档对应的文档信息,文档信息包括文档权重信息;当需要提取代表某一特定领域的词语时,首先可以选取一至多篇(也即若干篇)属于该特定领域的目本文档来自技高网...
词语提取方法及装置

【技术保护点】
一种词语抽取方法,其特征在于,所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。

【技术特征摘要】
1.一种词语抽取方法,其特征在于,所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种,所述文档权重信息通过所述目标文档的点击数或者网页级别PageRank值来计算,所述文档地域权重信息通过所述目标文档在预定地域的点击数或者PageRank值来计算,所述文档时间权重信息通过所述目标文档的创建时间和当前时间之间的差值来计算;处理所述目标文档获得候选词语;根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF;根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序,并根据排序结果提取词语。2.根据权利要求1所述的词语抽取方法,其特征在于,所述处理所述目标文档获得候选词语,具体包括:对所述目标文档的正文进行分词,以获得至少一个词语;对所述词语进行词性分析;根据所述词语的词性识别所述词语的实体信息;将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。3.根据权利要求1所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF,具体包括:对于候选词语ti,根据文档信息wj计算词频TFi,j为:其中,TFi,j为所述候选词语ti在目标文档dj中的词频,ni,j为所述候选词语ti在目标文档dj中的出现次数,Σknk,j为所述目标文档dj中所有词语的出现次数之和。4.根据权利要求1所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF,具体包括:对于候选词语ti,根据文档信息wj计算反向文档频率IDFi为:其中,IDFi是所述候选词语ti的反向文档频率,|D|是总文档库中的文档数之和,是所述总文档库中包含所述候选词语ti的文档的文档信息之和,所述总文档库包括参考文档库和包括所述至少一个目标文档的目标文档库;当计算为0时,令等于固定常数,所述固定常数的取值范围为(0,0.01)。5.根据权利要求3或4所述的词语抽取方法,其特征在于,所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF之前,还包括:计算所述文档信息wj为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种;所述文档权重信息为:其中,hits(dj)为文档dj的点击数,Max(hits(di),1<i<N)表示文档库中最大的文档点击数;或者,所述文档地域权重信息为:其中,hits(dj)为文档dj在预定地域的点击数,Max(hits(di),1<i<N)表示文档库中在所述预定地域最大的文档点击数;或者,所述文档时间权重信息为:其中,T0为文档dj的创建时间,T1为当前时间,当计算|T1-T0|为0时,令|T1-T0|等于固定常数,所述固定常数的取值范围为(0,0.01);所述文档dj为目标文档时,所述文档库为包括所述至少一个目标文档的目标文档库;所述文档dj为参考文档时,所述文档库为参考文档库。6.一种词语抽取装置,其特征在于,所述装置包括:文档获取模块,用...

【专利技术属性】
技术研发人员:贾江涛顾翀
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1