【技术实现步骤摘要】
本专利技术属于文本挖掘领域,尤其涉及新闻文本挖掘。
技术介绍
关键词抽取是文本信息检索的一个重要研究课题。中文新闻的关键词抽取对于理解新 闻的重要内容和实现相关新闻事件的精确检索有着极其重要的作用。文本关键词是指几个 能对文本概述、与文本语义内容相关的词或短语。通过关键词,人们可以快速地查找所需 要的信息。更进一歩,关键词还能为更深一层的文本挖掘应用提供丰富的语义信息,如文 本分类、文本聚类、文本检索及主题挖掘等。目前国内外己有很多关键词抽取方法,并且已被广泛应用。但大部分的研究工作都集 中在提高关键词抽取的准确率,没有仔细地研究什么词才是关键词,导致关键词定义的标 准不统一,各种方法之间难以比较。另外关键词抽取的结果受分词系统质量的影响较大, 在关键词抽取中,大多数的关键词抽取方法以分词作为处理的第一步,而分词过程出现的 漏检和错误直接造成了文本后续处理的困难,亦因为这个原因,关键词抽取方法还要解决 未登录词的抽取问题。针对这些问题,本文首先从语言学的角度对中文文本进行分析,提出我们对新闻关键词的 定义规范。根据关键词的定义规范,基于ICTCLAS词法分析系统,我们统计关键词潜在 的词性模式,分别采用了一元、二元及兰元文法在文本中挖掘候选关键词。为了修正分词 的错误,我们提出了基于标题挖掘的方法來检测未被分词器发现的潜在关键词。最后对各 候选词进行特征计算及拟合,取最高分值的五个词作为文本关键词。实验结果表明,该方 法较baseline的结果有明显的提升。另外,我们还把该方法应用于新闻回溯事件检测中, 实验表明关键词抽取能有效地提高该任务的效率和正确率 ...
【技术保护点】
一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤:步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式:步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括 Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标 注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2) 所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下:步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注; ...
【技术特征摘要】
1、一种基于词频和多元文法的新闻关键词抽取方法,其特征在于所述方法依次会有以下步骤步骤(1)对新闻进行语言学和语义特征的分析,给出新闻关键词的潜在词性模式步骤(1.1)人工对基于新闻文本集进行语言学和语义特征的分析,根据包括Who、Where,When,What,Why,How在内的新闻六要素,进行新闻关键词抽取,并从所述文本中过滤掉包括虚词、数量词、拟声词在内的非上述词性的词;步骤(1.2)借助于计算机,利用ICTCLAS分词工具对所述文本进行词性标注,然后分别采用以所述ICTCLAS分词工具切分出来的词为单位,依次用一元、二元及三元文法在某个新闻文本集中统计出包括一般名词、修饰语、名词短语、动词短语在内的四类关键词的具体的多元词性模式,也即新闻关键词的四种潜在模式;步骤(2)所述计算机依据步骤(1.2)得到的四种具体的潜在词性模式,从一份完整的、具体的新闻文本中抽取候选关键词,其步骤如下步骤(2.1)完成步骤(2)中的一份完整而具体的新闻文本分段,利用ICTCLAS分词工具进行分词及词性标注;步骤(2.2)根据步骤(1)中得到的潜在词性模式去掉包括虚词、数量词、拟声词在内的其他词及停用词;步骤(2.3)分别采用以步骤(2.1)中用ICTCLAS分词工具分出来的词为单位,用一元、二元及三元文法在步骤(2)所述的一份完整而具体的文本中挖掘出符合步骤(1.2)所述词性模式的词,作为候选关键词;步骤(3)计算机为步骤(2)得到的每个候选关键词w按以下方法计算出下述八个特征值词频分别以三个特征值w.tf、w.ctf、termSum表示w.tfw在所在新闻文本中的出现次数,其中,所在新闻文件即步骤(2)所述的一份完整而具体的新闻文本;w.ctfw在所述某个新闻文本集中出现的总次数;termSum在所述某个新闻文本集中,基于该词w所属文法的一元/二元/三元文法字的词频总和;文本位置分别用w.inTitle及w.inFirst表示,其中w.inTitle表示词w是否在新闻的标题中出现,w.inTitle=0表是否,w.inTitle=1表是肯定;w.inFirst表示词w是否在所在新闻文本的第一段中出现,w.inFirst=0表是否,w.inFirst=1表是肯定;词性用w.POS表示,指词w的词性;形态分别用w.quo、w.sign表示,其中w.quo表示引用强调,是指词w是否被包括引号、书名号在内的符号括起来,w.quo=0表是否,w.quo=1表是肯定;w.sign表示词w的长度,按式Se(w)=g(x)计算得出,其中x为字词的长度,g(1)=0;当2≤x≤8时,g(x)=log2x;当x>8时,g(x)=3;步骤(4)计算机基于标题挖掘的方法来检测潜在关键词,所述潜在关键词是指那些没有被上述ICTCLAS分词工具所正确处理但可能是关键词的那些词,步骤如下步骤(4.1)把包括引号、书名号在内的一些起引用强调的符号作为分词标记,去检测这些被引号或书名号括起来的词;步骤(4.2)对于那些新出现的简略语或专有名词,按以下步骤处理步骤(4.2.1)设定以下四个识别检测的指标最大重复设S是潜在关键词所在文本中的一个字串,若字串S的频率至少为1且S的任意子串S’的频率均小于S的频率,则S是最大重复的;完整设p1,p2,...,pk为字串S在文本T中出现的k个不同位置,当且仅当下列条件同时成立时,S是完整的;1)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pi-1)个字与第(pj-1)个字不同;2)至少有一个位置序号对(i,j),1≤i<j≤k,使第(pj+|S|)个字与第(pj+|S|)个字不同,其中|S|为字串S的长度值;稳定度设S...
【专利技术属性】
技术研发人员:李涓子,樊绮娜,李军,唐杰,张鹏,许斌,
申请(专利权)人:清华大学,
类型:发明
国别省市:11[中国|北京]