当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于词频和多元文法的新闻关键词抽取方法技术

技术编号:2829542 阅读:418 留言:1更新日期:2012-04-11 18:40
一种基于词频和多元文法的新闻关键词抽取方法属于自然语言处理技术领域,其特征在于,通过研究关键词的特征词性,利用计算机辅助挖掘,提取出关键词的多元文法的潜在词性模式,并将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。本申请提出一个改进的单文本词汇频率/逆文本频率值(tf/idf)公式,引入有针对性的特征,对候选关键词进行评分,得出候选关键词的排名,进行结果优化后给出该新闻文档的关键词。该方法与传统的基于单文本词汇频率/逆文本频率值(tf/idf)的关键词抽取方法比较,在准确率相同的情况下,召回率更高些。

【技术实现步骤摘要】

本专利技术属于文本挖掘领域,尤其涉及新闻文本挖掘。
技术介绍
关键词抽取是文本信息检索的一个重要研究课题。中文新闻的关键词抽取对于理解新 闻的重要内容和实现相关新闻事件的精确检索有着极其重要的作用。文本关键词是指几个 能对文本概述、与文本语义内容相关的词或短语。通过关键词,人们可以快速地查找所需 要的信息。更进一歩,关键词还能为更深一层的文本挖掘应用提供丰富的语义信息,如文 本分类、文本聚类、文本检索及主题挖掘等。目前国内外己有很多关键词抽取方法,并且已被广泛应用。但大部分的研究工作都集 中在提高关键词抽取的准确率,没有仔细地研究什么词才是关键词,导致关键词定义的标 准不统一,各种方法之间难以比较。另外关键词抽取的结果受分词系统质量的影响较大, 在关键词抽取中,大多数的关键词抽取方法以分词作为处理的第一步,而分词过程出现的 漏检和错误直接造成了文本后续处理的困难,亦因为这个原因,关键词抽取方法还要解决 未登录词的抽取问题。针对这些问题,本文首先从语言学的角度对中文文本进行分析,提出我们对新闻关键词的 定义规范。根据关键词的定义规范,基于ICTCLAS词法分析系统,我们统计关键词潜在 的词性模式,分别采用了一元、二元及兰元文法在文本中挖掘候选关键词。为了修正分词 的错误,我们提出了基于标题挖掘的方法來检测未被分词器发现的潜在关键词。最后对各 候选词进行特征计算及拟合,取最高分值的五个词作为文本关键词。实验结果表明,该方 法较baseline的结果有明显的提升。另外,我们还把该方法应用于新闻回溯事件检测中, 实验表明关键词抽取能有效地提高该任务的效率和正确率
技术实现思路
本专利技术的目的在于提供一个新闻文本的关键词定义规范及抽取方法。本专利技术所提出的方法的思路在于首先通过对新闻文本语言学和语义特征的分析,给出新闻文本关键词的定义规范;然后根据这个定义规范,我们在文本中统计关键词的潜在词性 模式,并提出以此词性模式为基础的一元、二元及三元文法的候选关键词挖掘方法,得出 候选关键词列表。我们用基于标题挖掘的方法来检测未被分词器发现的潜在关键词,并将 它们加入到候选关键词列表中。最后,通过对各候选关键词进行特征计算及拟合并得出分 数,.分值最高的几个候选关键词将成为最终的关键词。所述方法是基于一个已经存在的社会网络依次按以下歩骤具体实现的,所采用的步骤框图 请见图1,,其特征在于所述方法依次会有以下步 骤步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式。步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Wh0、Where, When, What, Why, How在内的新闻六要素,进行新闻关键词抽取,并从所述文 本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词。步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然 后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文 法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关 键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、 具体的新闻文本中抽取候选关键词,其步骤如下-步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具 进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的 其他词及停用词;步骤(2.3)分别釆用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位, 用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2) 所述词性模式的词,'作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词W按以下方法计算出下述八个特征值:词频分别以三个特征值w.Z/、 w./、 terw5wm表示w.(/i w在所在新闻文本中的出现次数。其中,所在新闻文件即步骤(2)所述的一份 完整而具体的新闻文本;W.rt/: W在所述某个新闻文本集中出现的总次数;to^&m:在所述某个新闻文本集中,基于该词W所属文法的一元/二元/三元文法 字的词频总和;文本位置分别用w./7We及w ^F/rW表示,其中M/.&7Me:表示词w是否在新闻的标题中出现,Ma> 77//e=0表是否,w.^ra/e=l表是肯定;MU力/^W:表示词W是否在所在新闻文本的第一段中出现,W.&F/raFO表是否, WJ>lFz'W/=l表是肯定;词性用W.户OS表示,指词W的词性; 形态分另ll用呵WO、 表示,其中-表示引用强调,是指词W是否被包括引号、书名号在内的符号括起来,W.^O-0 表是否,表是肯定;W.W'^7:表示词W的长度,按式&—)=^(计算得出,其中JC为字词的长度,g =0;当25x58时,g(x)=/og2x;当x〉8时,g(;c)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理 步骤(4.2.1)设定以下四个识别检测的指标最大重复设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S'的频率均小于S的频率,则S是最大重复的;完整设/7/, ... , ^为字串s在文本r中出现的A个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(/,刀,15/</^:,使第(p,-7)个字与第fe-7)个字不同;2)至少有一个位置序号对(力,1^'</5々,使第to+问)个字与第(^+刚个字不同,其中问为字串S的长度值;稳定度设<formula>complex formula see original document page 9</formula>,则s的稳定度定义为認(s)-〈5 , &<formula>complex formula see original document page 9</formula>分别是s, ^在潜在关键,词所在文本中出现的频率; 相对频率设S是潜在关键词文本中的一个字串,则S的相对频率为^h, w为 该文本中所出现的所有词。/Tw)为词w在该文本中出现的频率;步骤(4.2.2)根据以下4个必须同时满足的条件,把标题中的潜在关键词字串挖掘出来1)不能是单个字;2) 必须是最大重复的和完整的;3) 稳定度至少为L当字符数为2时,f=0.38;当字符数为3时,^=0.67;该字符 数有其他值时,/ =0.8;4)频率至少为3,相对频率大于等于0.021。 然后,把潜在关键词作为候选词,加入到关键词候选集中,把这些潜在关键词的特征值算 出,对标题中其他已被ICTCLAS分词工具发现的及本文档来自技高网
...

【技术保护点】
一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤:步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式:步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括 Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标 注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2) 所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下:步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注; 步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具 体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值:词频:分别以三个特征值w.tf、w.ctf、termSum表示:w .tf:w在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;w.ctf:w在所述某个新闻文本集中出现的总次数;termSum:在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三 元文法字的词频总和;文本位置:分别用w.inTitle及w.inFirst表示,其中:w.inTitle:表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirs t:表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;词性:用w.POS...

【技术特征摘要】
1、一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值词频分别以三个特征值w.tf、w.ctf、termSum表示w.tfw在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;w.ctfw在所述某个新闻文本集中出现的总次数;termSum在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;文本位置分别用w.inTitle及w.inFirst表示,其中w.inTitle表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirst表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;词性用w.POS表示,指词w的词性;形态分别用w.quo、w.sign表示,其中w.quo表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;w.sign表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当x>8时,g(x)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理步骤(4.2.1)设定以下四个识别检测的指标最大重复设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;完整设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pi-1)个字与第(pj-1)个字不同;2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值;稳定度设S...

【专利技术属性】
技术研发人员:李涓子樊绮娜李军唐杰张鹏许斌
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[云南省昆明市联通] 2014年12月08日 19:31
    TF-IDFtermfrequency–inversedocumentfrequency词频--反转文件频率是一种用于情报检索与文本挖掘的常用加权技术用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度
    0
1