当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于文档主题结构与语义的中文文本关键词提取方法技术

技术编号:18289451 阅读:91 留言:0更新日期:2018-06-24 04:08
一种基于文档主题结构与语义的中文文本关键词提取方法,涉及关键词提取。文本预处理;中文分词及词性标注;停用词过滤与词性过滤;关键词提取。介绍文本关键词提取的基本概念、中文分词与英文分词存在的差异、常用的中文文本关键词提取方法。研究基于文档主题结构的方法和基于语义的方法,分析其原理以及现有的实现方案。针对中文分词中存在的新词识别的难点,使用动态更新分词词典来不断改善中文分词的效果。对基于文档主题结构的方法进行改进,提取全局的关键词。将中文词语之间的语义相似度考虑进来,进一步改进算法。并在自构建的数据集中验证改进算法,通过验证实验和对比实验,都得到较好的结果,表明改进算法能够改善关键词提取的效果。

【技术实现步骤摘要】
一种基于文档主题结构与语义的中文文本关键词提取方法
本专利技术涉及关键词提取,尤其是涉及一种基于文档主题结构与语义的中文文本关键词提取方法。
技术介绍
迈入21世纪,伴随着科技的不断进步和互联网的高速发展,各类的信息资源成倍快速增加。人们迫切地希望能快速地、准确地从庞大的信息源中寻找到对自己真正有用的资料。关键词能够高度归纳文档的内容,并且反映文档的主题,为人们寻找资源提供有力的帮助。在一篇文档当中,关键词是对文档的内容的深度提炼,其一般通过几个词语或者短语来表示。透过文档的关键词,能够洞悉该篇文档描写的主要内容,迅速判断出是否是需要的资源。关键词自动提取技术可以帮助人们从庞大的数据资源中高效查找与识别出其所需的资源,提高对资源检索的效率。在多个领域,关键词提取技术为其提供了重要的技术支持。关键词可作为文本的索引,使得人们可以很方便地查找到特定主题的资料。利用搜索引擎(如百度搜索、Google搜索等)查询资源时,提供合适的关键词将使得搜索结果更加准确,提高查询效率。文本分类指的是按照一定的标准,构建出分类的模型,把待分析文本中提取出来的特征信息放入模型中计算,计算出待分析文本所属的类别,完成分类。文本分类的典型方法是依据文本当中是否包含和类别名称相关的关键词,进而将其归类于所属的类别。而文本聚类会选用文本中的某些特征信息来计算不同文本间的相似程度,将彼此之间具有较高相似性的文本聚拢到一起,并且将彼此之间的相似性较低的文本分散到不相同的簇里。准确的关键词能够优化文本聚类的过程,获取更加符合实际的结果。不幸的是,当前大部分的文本资源没有标注关键词,如技术文章、微博等。通过调研得知,一共存在两种解决方案,其一,人工标注关键词;其二,关键词自动提取。人类阅读、理解文本内容后,对其标注关键词,一般拥有比较高的准确性。但是由于标注者的学识储备、对关键词的理解以及总结概括能力不同,带有较强的主观性,提取的关键词不尽相同。况且,使用人力来对文本标注关键词会花费较多的精力来阅览、理解文本内容,这显然满足不了当前信息资源数量不断翻倍的现状。关键词提取技术由此产生,其可以很好地处理这个问题。建立一致的提取规则,借助于机器的强大功能,自动提取文本的关键词。通过该方法,能够大大减轻人力、时间的花费。
技术实现思路
本专利技术的目的在于提供一种基于文档主题结构与语义的中文文本关键词提取方法。本专利技术包括以下步骤:1)文本预处理;2)中文分词及词性标注;3)停用词过滤与词性过滤;4)关键词提取。本专利技术包括以下工作:1.对国内外在文本关键词提取领域的成果进行研究,并对中文分词和英文分词的差异,以及对关键词提取的影响进行对比。2.对基于文档主题结构的方法以及基于语义的方法进行研究,分析其原理,并以实际的例子研究其如何提取关键词。3.借助于向量空间模型,使用改进算法在连续的文本分段中寻找最优聚类,构建文档的主题结构。对基于文档主题结构的方法做出改进,从文档中提取出全局的关键词。以此为基础,利用同义词林,将中文词语间的语义相似度考虑进来,进一步改进算法,提升中文文本关键词提取的效果。并且针对中文分词存在的新词识别的难点,动态更新中文分词系统的分词词典,改善中文分词的效果。4.由于中文文本关键词提取领域缺乏标准的标注关键词语料库,自构建数据集对改进算法进行实验。并以准确率、召回率以及F度量作为评价标准,开展验证实验与对比实验,通过实验验证改进算法是有效的。本专利技术首先介绍了文本关键词提取的基本概念、中文分词与英文分词存在的差异、常用的中文文本关键词提取方法。研究了基于文档主题结构的方法和基于语义的方法,分析其原理以及现有的实现方案。针对中文分词中存在的新词识别的难点,使用动态更新分词词典来不断改善中文分词的效果。对基于文档主题结构的方法进行改进,提取全局的关键词。在此基础上,将中文词语之间的语义相似度考虑进来,进一步改进算法。并在自构建的数据集中验证改进算法,通过验证实验和对比实验,都得到了较好的结果,表明改进算法能够改善关键词提取的效果。与现有方法相比,本专利技术具有以下优点:1)针对中文分词的新词识别这一难点问题,动态更新分词词典来提高中文分词的准确性。2)借助于向量空间模型,使用改进算法在连续的文本分段中寻找最优聚类,构建文档的主题结构,其结果优于现有算法。3)加入中文词语之间的语义相似度的因素,进一步改进算法,将统计方法与语义相结合,提升关键词提取的效果。附图说明图1为分段和分段对应的带权二分图。图2为对比算法准确率变化趋势图。图3为对比算法召回率变化趋势图。图4为对比算法F度量变化趋势图。具体实施方式以下实施例将结合附图对本专利技术作进一步的说明。本专利技术包括以下步骤:1)文本预处理步骤:使用的文本文档主要来自于网页、PDF、Word等多种类型数据,预处理的过程分为两个方面,一个是网页的预处理,另一个是其他文本类型的预处理;针对网页进行预处理:对这些新闻网页进行预处理,目标在于从中抽取出对应的标题、内容以及标注的关键词。通过编写抽取的规则,条件过滤,对网页进行结构化抽取,将其保存为文本的形式。不同的网站,其网页的模板大多是不同的。经过网站调研,新浪新闻网中提供的每一篇新闻都会提供人工标注好的关键词,能够较好地反映新闻内容,本专利技术使用其收集新闻网页数据。在某个网站中,同种类型的网页往往使用相同的结构,利用同一网页模板将数据展示出来。分析实际网页信息,可以获知网页内容的分布规律。进而,分析出新闻标题和正文对应的标签位置,然后,利用这些标签来提取标题和正文。在网页预处理时,使用了Java中的Executor框架来并发抓取网页,加快抓取速度,提高效率。Executor框架的内在实现运用到了线程池的机制,是一个优秀的多线程并发框架。通过该框架的使用,多线程的生命周期的管理不再复杂,极大的简化了相关操作。在本专利技术中,通过新浪网首页获取所有新闻网页的链接,将这些链接平均分配给多个线程,根据网页抽取规则,并发抓取网页的有用信息。针对其他文本类型进行预处理:对于PDF类型的文档,利用Apache软件基金会提供的PDFBox库来抽取文档的文本信息。对于Word类型的文档,使用POI开源库来提取文本信息。Word文档有两种文件类型,分别是doc和docx。本专利技术利用WordExtractor来抽取doc类型的Word文档,使用HWPFDocment来读取docx类型的Word文档。2)中文分词及词性标注步骤:使用NLPIR汉语分词系统,将文档中的句子切分成一个个有意义的词语,并且在每个词语的后面为其标注了词性。在此基础上,新增分词词典的动态更新功能。该分词系统可以从外部加载用户定义的词典,这样可以改进新词识别这一难点,提高中文分词的准确性。3)停用词过滤与词性过滤步骤:将经过分词系统切分出来的词语依次和停用词词表逐一比较,若该词表中包含这个词语,那么这个词语将会被过滤掉,只留下名词、动词、副词、形容词这四种词性的词语,其他词性的词语将会被过滤掉。名词、动词、副词、形容词这些词性在NLPIR汉语分词系统中分别以“n”、“v”、“d”、“a”字母开头,而其他词性的词语都不是以这些字母开头,因此可以用其作为词性过滤的依据。4)关键词提取步骤:所述关键词提取步骤包括两种算本文档来自技高网
...
一种基于文档主题结构与语义的中文文本关键词提取方法

【技术保护点】
1.一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于包括以下步骤:1)文本预处理;2)中文分词及词性标注;3)停用词过滤与词性过滤;4)关键词提取。

【技术特征摘要】
1.一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于包括以下步骤:1)文本预处理;2)中文分词及词性标注;3)停用词过滤与词性过滤;4)关键词提取。2.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤1)中,所述文本预处理的具体方法为:使用的文本文档来自于网页、PDF、Word多种类型数据,预处理的过程分为两个方面,一个是网页的预处理,另一个是其他文本类型的预处理;(1)针对网页的预处理:对新闻网页进行预处理,目标在于从中抽取出对应的标题、内容以及标注的关键词,通过编写抽取的规则,条件过滤,对网页进行结构化抽取,将其保存为文本的形式;不同的网站,其网页的模板大多是不同的;经过网站调研,新浪新闻网中提供的每一篇新闻都会提供人工标注好的关键词,能够较好地反映新闻内容,使用其收集新闻网页数据;分析实际网页信息,获知网页内容的分布规律,进而,分析出新闻标题和正文对应的标签位置,然后,利用这些标签来提取标题和正文;在网页预处理时,使用Java中的Executor框架来并发抓取网页,加快抓取速度,提高效率;Executor框架的内在实现运用到线程池的机制;通过Executor框架的使用,通过新浪网首页获取所有新闻网页的链接,将所有新闻网页的链接平均分配给多个线程,根据网页抽取规则,并发抓取网页的有用信息;(2)针对其他文本类型的预处理:对于PDF类型的文档,利用Apache软件基金会提供的PDFBox库来抽取文档的文本信息;对于Word类型的文档,使用POI开源库来提取文本信息;Word文档有两种文件类型,分别是doc和docx;利用WordExtractor来抽取doc类型的Word文档,使用HWPFDocment来读取docx类型的Word文档。3.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤2)中,所述中文分词及词性标注的具体方法为:使用NLPIR汉语分词系统,将文档中的句子切分成一个个有意义的词语,并且在每个词语的后面为其标注词性,再新增分词词典的动态更新功能,NLPIR汉语分词系统从外部加载用户定义的词典。4.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤3)中,所述停用词过滤与词性过滤的具体方法为:将经过分词系统切分出来的词语依次和停用词词表逐一比较,若停用词词表中包含这个词语,则这个词语将会被过滤掉,只留下名词、动词、副词、形容词这四种词性的词语,其他词性的词语将会被过滤掉;名词、动词、副词、形容词这些词性在NLPIR汉语分词系统中分别以“n”、“v”、“d”、“a”字母开头,而其他词性的词语都不是以这些字母开头,因此可以用其作为词性过滤的依据。5.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于在步骤4)中,所述关键词提取的具体方法为:所述关键词提取包括两种算法,一种是改进的基于文档主体结构的算法,另一种是改进的机遇文档主体结构与语义的算法。6.如权利要求5所述一种基于文档主题结构与语义的中文文本关键词提取方法,其特征在于所述改进的基于文档主体结构的算法如下:给定一篇文档,首先分析其包含的内容,构造出文档的主题结构,其目标是将文档分割成多个级别的主题树,每一层包含多个簇,将适当数量的连续文本单元分配给这些簇;主题树的某一层簇的数量会比下一层簇的数量少一个,逐层增加;根据文档的文本内容进行聚类,经过多次迭代建立聚类的层次结构,进而构建文档的主题结构;给定聚类的簇数设k个,目标函数Quality,对于一篇文档,将其分成N个段,迭代分割聚类,最终获得k个簇,并使得目标函数取得最大值;同时满足聚类中的簇只包含连续的文本分段的约束条件,每一次聚类没有两个簇是有交集的,并且每一次聚类包含文档的所有段;对于每个段向量中的权重的计算方法进行改进,通过公式(1-1)求得:其中,指的是段si中的总词数,对词频进行标准化,避免分段包含词语不同的噪音干扰;为了提取文档的关键词,既保留文档上下文信息,又使得关键词多样化,使用改进的重要性得分,用Sig表示;计算每个词语的重要性得分,用Sig(tj)表示,通过公式(1-2)求得:其中,tf(tj,Ii)指的是词语tj在簇Ii里一共出现的次数,tf(tj)指的是词语tj在整个文档中的词频,因此是指词语tj在全文中的重要程度;sf(tj,Ii)是一个指标变量,若簇Ii对应的文本内容包含词语tj,则sf(tj,I...

【专利技术属性】
技术研发人员:王晓黎林坤辉邱明王美红潘洋彬杜文源高楚楚
申请(专利权)人:厦门大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1