当前位置: 首页 > 专利查询>姚尹雄专利>正文

面向领域整体的关键词集的评价和提取方法技术

技术编号:7240360 阅读:185 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种领域关键词集的提取方法,它提出领域关键词集的概念,提出构建领域文集的词网、通过基于图结构的ranking算法计算词网节点的权重、利用搜索引擎调整词权、进而提取领域关键词集的方法。本发明专利技术的领域关键词集的提取方法,能够提高提取结果的领域特性和提取精度,能够适用于Web环境下大规模领域文集的领域关键词集的提取。

【技术实现步骤摘要】

本专利技术涉及一种领域关键词集的提取方法,更具体的是提出构建领域文集的词网,利用基于图结构的ranking算法提取领域关键词集的方法。
技术介绍
目前,关键词提取技术的研究主要有基于统计、基于图、基于机器学习的三类方法。用现有的关键词提取技术来提取一个领域的整体关键词,存在不足之处,具体如下基于统计的方法,主要通过统计文本中词语的出现规律提取关键词;该方法的缺点是,提取的关键词难以准确概括领域内容。基于图结构的方法,主要考虑文本中词之间的联系,以词为节点、以词间的关系为边、组成一个网络,通过挖掘网络中的特殊节点来发现关键词;该方法的缺点是,关键词提取的精度只能体现在文本较长的文本上。基于机器学习的方法,是通过人工标注的关键词实例训练生成分类器,再用分类器确定新文本的关键词; 该方法的缺点是,训练分类器需要大量的人工标注关键词,领域变化时需重定学习规则,在 Web环境下难以大规模使用。领域关键词集,也就是一个领域的整体关键词,应具有概括领域内容和区分于其他领域的特性。目前,以出现次数最多的词作为领域关键词集难以准确反应整个领域的特性。但是由于领域文本难以整体获得,领域关键词集的提取方法并没有得到太多研究。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种领域关键词集的提取方法,该方法能提高关键词提取精度,能提高提取结果的领域特性,并能方便应用于提取Web环境下网页文本的领域关键词集。为了达到上述的目的,本专利技术构思如下定义领域关键词集的概念领域关键词集是领域主题中最重要的N个词,即权重最大的前N个词。其中,词的权重表示对领域主题的贡献程度。在提取领域关键词集时,以词为节点、以词的关联规律为边、构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,再利用搜索引擎检验词的普遍性;进而提取出权重最大的前N个词作为领域关键词集。根据上述的专利技术构思,本专利技术采用下述技术方案一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下1)打开一批领域文集;2)初始化词网对领域文集预处理,将过滤后的实词作为词网的节点;3)通过兴趣度创建词网的有向边;4)用ranking算法计算节点的权重;5)通过搜索引擎来调整节点对应的实词的词权;6)统计实词的词权的排名;7)选择关键词将排名最高的N个词作为领域关键词集。上述步骤幻所述的通过兴趣度创建词网有向边的方法,其步骤如下(1)对一篇文本中共同出现的词a和词b,用置信度Confidence来度量文本中词 a出现后词b出现的可信程度,置信度计算公式如下 权利要求1.一种领域关键词集的提取方法,其特征在于提出构建领域文集的词网,通过基于图结构的ranking算法计算词网节点的权重,利用搜索引擎调整词权,进而提取领域关键词集的方法,其具体步骤如下1)打开一批领域文集;2)初始化词网对领域文集预处理,将过滤后的实词作为词网的节点;3)通过兴趣度创建词网的有向边;4)用ranking算法计算节点的权重;5)通过搜索引擎来调整节点对应的实词的词权;6)统计实词的词权的排名;7)选择关键词将排名最高的N个词作为领域关键词集。2.按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤幻中所述的通过兴趣度创建词网有向边的方法,其步骤如下(1)对一篇文本中共同出现的词a和词b,用置信度Confidence来度量文本中词a出现后词b出现的可信程度,置信度计算公式如下广“作 rM P(TaJb) \{D\TaeDnTbeD}LonfidenceiTa, Tb) --=-r --P(Ta)|{/)|7^例其中,Ta和Tb表示词a和词b,P (Ta,Tb)表示词a和词b同时出现在领域文集D中的概率;P (Ta)表示词a出现在领域文集中的概率;(2)用相似度cosine来度量词a与词b的相关程度,相似度计算公式如下I(DITbejDnT^eD)Icos ine{Ta, Tb)==^j\{D\Ta e D}-\{D\Tb e D}其中,I1a和1 表示词a和词b,D表示领域文集;(3)用兴趣度hterestingness综合衡量词a对词b的关联性,兴趣度计算公式如下Interestingness(Ta,Tb) = Confidence(Ta, Tb) · cos ine(Ta, Tb)(4)若词a和词b共同出现次数高于最小共现次数,并且词a对词b的兴趣度也高于最小兴趣度阈值,则建立词a对应节点到词b对应节点的一条有向边,用计算的兴趣度作为该边的权重。3.按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤4)中所述的 ranking算法,是通过节点间的“投票”决定节点重要性,当一个节点连接到另一节点时,它会向这个被连的节点进行一个“投票”,节点得到的“票数”越多,它就越重要,同时它投出的票就越重要;ranking算法中最常用的是I^ageRank算法和HITS算法。4.按权利要求1所述的领域关键词集的提取方法,其特征在于,上述步骤幻中所述的通过搜索引擎调整词权的方法,其词权weightt的计算公式如下weightt = rankingt · IDFt ‘其中,ranking表示词t经过ranking算法计算后的权值;IDFt'表示通过搜索引擎搜计算的词t的反文档频率IDFanverse Document Frequency),其计算公式为IDFt ‘= log (N/Pt)/log (N),其中N表示搜索引擎索引总页面数、Pt表示检索词t返回的页面数。全文摘要本专利技术涉及一种领域关键词集的提取方法,它提出领域关键词集的概念,提出构建领域文集的词网、通过基于图结构的ranking算法计算词网节点的权重、利用搜索引擎调整词权、进而提取领域关键词集的方法。本专利技术的领域关键词集的提取方法,能够提高提取结果的领域特性和提取精度,能够适用于Web环境下大规模领域文集的领域关键词集的提取。文档编号G06F17/30GK102375842SQ20101025904公开日2012年3月14日 申请日期2010年8月20日 优先权日2010年8月20日专利技术者唐新怀, 姚尹雄 申请人:唐新怀, 姚尹雄本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:姚尹雄唐新怀
申请(专利权)人:姚尹雄唐新怀
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术