网页关键词提取方法及装置制造方法及图纸

技术编号:6995269 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种网页关键词提取方法及装置,涉及关键词提取领域,提高了网页关键词提取的准确率和召回率。本发明专利技术包括:获取网页的种子关键词及候选关键词;获取网页的种子关键词及候选关键词;统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分;根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。本发明专利技术主要用于网页关键词的提取过程中。

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及一种网页关键词提取方法及装置
技术介绍
网页关键词的提取是海量数据背景下的互联网应用中的一个热点问题。为网页提取适当的关键词,可以用以提示和概括网页的内容。对广告商来说,网页的关键词有着非常重要的商业价值。广告商可以根据一个网页的关键词,在该网页上投放适当的商业广告。目前已存在许多网页关键词提取方法,这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大约有以下几类统计学的方法如TF,TFIDF方法;信息论的方法,如基于最大熵模型自动提取关键词;机器学习的方法,如基于决策树或基于朴素贝叶斯;自然语言处理的方法如基于词的语义相似性度量。 这些方法根据应用对象的不同,有不同的效果。在实现上述网页关键词提取的过程中,专利技术人发现现有技术中至少存在如下问题已有的网页关键词的提取,是对网页正文的候选关键词进行评价,并经排序以后,提取前N个词作为网页的关键词,但这N个关键词中,并非所有的词都是真正与正文主题有关的关键词,而没被提取出的候选关键词中,却仍然存在一些与正文主题很相关的词,使得网页关键词提取的准确率和召回率都存在缺陷。
技术实现思路
本专利技术的实施例提供一种网页关键词提取方法及装置,以提高网页关键词提取的准确率和召回率。为达到上述目的,本专利技术的实施例采用如下技术方案一种网页关键词提取方法,包括获取网页的种子关键词及候选关键词;统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分; 根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。一种网页关键词提取装置,包括第一获取单元,用于获取网页的种子关键词;第二获取单元,用于获取所述网页的候选关键词;统计单元,用于统计所述候选关键词与所述种子关键词同句出现的次数;打分单元,用于根据所述统计单元得到的次数对所述候选关键词进行打分,得到相应的得分;排序单元,用于根据所述打分单元得到的得分对所述候选关键词进行排序;选取单元,用于按照所述得分从高到低的顺序从所述第二获取单元获取的候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述第一获取单元获取的种子关键词也作为所述网页的关键词。本专利技术技术方案中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本专利技术技术方案中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1网页关键词提取方法的流程图;图2为本专利技术实施例2网页关键词提取方法的流程图;图3为本专利技术实施例3 —种网页关键词提取装置组成框图;图4为本专利技术实施例3另一种网页关键词提取装置组成框图;图5为本专利技术实施例3另一种网页关键词提取装置组成框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本专利技术实施例提供一种网页关键词提取方法,如图1所示,该方法包括101、获取网页的种子关键词及候选关键词。其中,所述获取网页的种子关键词可以采用以下方法,包括第一种,根据用户的需求设置所述网页的种子关键词;第二种,从网页中获取所述网页的种子关键词。当从网页中获取所述网页的种子关键词时,可以采用但不局限于以下方法,当所述网页中存在正文的标题时,从所述正文的标题中获取所述网页的种子关键词;当所述网页中不存在正文的标题时,从所述正文的首段中获取所述网页的种子关键词;第三种,根据用户的需求设置所述网页的种子关键词,并结合从网页中获取所述网页的种子关键词。在具体实施本专利技术实施例时,可以根据具体的实施采用具体的方法,本专利技术实施例对此不进行限制。所述获取页面的候选关键词可以采用以下方法,包括从所述网页中提取正文,并对所述正文进行分词得到正文实词列表;对所述正文实词列表中的正文实词进行打分得到所述正文实词的得分,并按照所述得分对所述正文实词进行排序;按照所述得分从高到低的顺序从所述正文实词列表中选取预定数量的正文实词作为所述网页的候选关键词。102、根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。其中,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词可以采用但不局限于如下方法,该方法包括统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分;根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词。其中,由于在种子关键词出现时,若候选关键词与所述种子关键词同句出现,则表明该候选关键词是与网页主体内容相关的关键词,那么该候选关键词与所述种子关键词同句出现的频率越高,表明该候选关键词最有可能是与所述网页主体内容相关的关键词,可以考虑将该类词作为网页的关键词,以便提高关键词提取的召回率。本专利技术实施例中,首选获取网页的种子关键词和候选关键词,根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词;与现有技术相比,本专利技术实施例中,首选获取所述网页的种子关键词并将其作为网页的关键词,所述种子关键词是与网页的正文最相关的实词;并且根据所述种子关键词从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,有效的将不必要的候选关键词作为所述网页的关键词,提高了网页关键词提取的准确率,并且将与网页正文主题最相关的关键词也通过所述种子关键词获取,也提高了网页关键词的召回率。实施例2本专利技术实施例提供一种网页关键词提取方法,在实施本专利技术实施例时,首先需要获取网页的种子关键词,在获取所述网页的种子关键词时,可以采用以下方法,包括根据用户的需求设置所述网页的种子关键词;和/或从网页中获取所述网页的种子关键词,本专利技术实施例具体按照从网页中获取所述网页的种子关键词为例,阐述网页关键词的提取方法,如图2所示,该方法包括201、从网本文档来自技高网...

【技术保护点】
1.一种网页关键词提取方法,其特征在于,包括:获取网页的种子关键词及候选关键词;统计所述候选关键词与所述种子关键词同句出现的次数;根据所述次数对所述候选关键词进行打分,得到相应的得分;根据所述得分对所述候选关键词进行排序;按照所述得分从高到低的顺序从所述候选关键词中选取预定数量的候选关键词作为所述网页的关键词,并将所述获取的种子关键词也作为所述网页的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:陆元飞王婵娟孙斌刘刚朱汝维
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1