一种基于文档主题结构与语义的中文文本关键词提取方法技术

技术编号：18289451 阅读：91 留言：0更新日期：2018-06-24 04:08

一种基于文档主题结构与语义的中文文本关键词提取方法，涉及关键词提取。文本预处理；中文分词及词性标注；停用词过滤与词性过滤；关键词提取。介绍文本关键词提取的基本概念、中文分词与英文分词存在的差异、常用的中文文本关键词提取方法。研究基于文档主题结构的方法和基于语义的方法，分析其原理以及现有的实现方案。针对中文分词中存在的新词识别的难点，使用动态更新分词词典来不断改善中文分词的效果。对基于文档主题结构的方法进行改进，提取全局的关键词。将中文词语之间的语义相似度考虑进来，进一步改进算法。并在自构建的数据集中验证改进算法，通过验证实验和对比实验，都得到较好的结果，表明改进算法能够改善关键词提取的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文档主题结构与语义的中文文本关键词提取方法
本专利技术涉及关键词提取，尤其是涉及一种基于文档主题结构与语义的中文文本关键词提取方法。
技术介绍
迈入21世纪，伴随着科技的不断进步和互联网的高速发展，各类的信息资源成倍快速增加。人们迫切地希望能快速地、准确地从庞大的信息源中寻找到对自己真正有用的资料。关键词能够高度归纳文档的内容，并且反映文档的主题，为人们寻找资源提供有力的帮助。在一篇文档当中，关键词是对文档的内容的深度提炼，其一般通过几个词语或者短语来表示。透过文档的关键词，能够洞悉该篇文档描写的主要内容，迅速判断出是否是需要的资源。关键词自动提取技术可以帮助人们从庞大的数据资源中高效查找与识别出其所需的资源，提高对资源检索的效率。在多个领域，关键词提取技术为其提供了重要的技术支持。关键词可作为文本的索引，使得人们可以很方便地查找到特定主题的资料。利用搜索引擎(如百度搜索、Google搜索等)查询资源时，提供合适的关键词将使得搜索结果更加准确，提高查询效率。文本分类指的是按照一定的标准，构建出分类的模型，把待分析文本中提取出来的特征信息放入模型中计算，计算出待分析文本所属的类别，完成分类。文本分类的典型方法是依据文本当中是否包含和类别名称相关的关键词，进而将其归类于所属的类别。而文本聚类会选用文本中的某些特征信息来计算不同文本间的相似程度，将彼此之间具有较高相似性的文本聚拢到一起，并且将彼此之间的相似性较低的文本分散到不相同的簇里。准确的关键词能够优化文本聚类的过程，获取更加符合实际的结果。不幸的是，当前大部分的文本资源没有标注关键词，如技术文章、...
一种基于文档主题结构与语义的中文文本关键词提取方法

【技术保护点】
1.一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于包括以下步骤：1)文本预处理；2)中文分词及词性标注；3)停用词过滤与词性过滤；4)关键词提取。

【技术特征摘要】
1.一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于包括以下步骤：1)文本预处理；2)中文分词及词性标注；3)停用词过滤与词性过滤；4)关键词提取。2.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于在步骤1)中，所述文本预处理的具体方法为：使用的文本文档来自于网页、PDF、Word多种类型数据，预处理的过程分为两个方面，一个是网页的预处理，另一个是其他文本类型的预处理；(1)针对网页的预处理：对新闻网页进行预处理，目标在于从中抽取出对应的标题、内容以及标注的关键词，通过编写抽取的规则，条件过滤，对网页进行结构化抽取，将其保存为文本的形式；不同的网站，其网页的模板大多是不同的；经过网站调研，新浪新闻网中提供的每一篇新闻都会提供人工标注好的关键词，能够较好地反映新闻内容，使用其收集新闻网页数据；分析实际网页信息，获知网页内容的分布规律，进而，分析出新闻标题和正文对应的标签位置，然后，利用这些标签来提取标题和正文；在网页预处理时，使用Java中的Executor框架来并发抓取网页，加快抓取速度，提高效率；Executor框架的内在实现运用到线程池的机制；通过Executor框架的使用，通过新浪网首页获取所有新闻网页的链接，将所有新闻网页的链接平均分配给多个线程，根据网页抽取规则，并发抓取网页的有用信息；(2)针对其他文本类型的预处理：对于PDF类型的文档，利用Apache软件基金会提供的PDFBox库来抽取文档的文本信息；对于Word类型的文档，使用POI开源库来提取文本信息；Word文档有两种文件类型，分别是doc和docx；利用WordExtractor来抽取doc类型的Word文档，使用HWPFDocment来读取docx类型的Word文档。3.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于在步骤2)中，所述中文分词及词性标注的具体方法为：使用NLPIR汉语分词系统，将文档中的句子切分成一个个有意义的词语，并且在每个词语的后面为其标注词性，再新增分词词典的动态更新功能，NLPIR汉语分词系统从外部加载用户定义的词典。4.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于在步骤3)中，所述停用词过滤与词性过滤的具体方法为：将经过分词系统切分出来的词语依次和停用词词表逐一比较，若停用词词表中包含这个词语，则这个词语将会被过滤掉，只留下名词、动词、副词、形容词这四种词性的词语，其他词性的词语将会被过滤掉；名词、动词、副词、形容词这些词性在NLPIR汉语分词系统中分别以“n”、“v”、“d”、“a”字母开头，而其他词性的词语都不是以这些字母开头，因此可以用其作为词性过滤的依据。5.如权利要求1所述一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于在步骤4)中，所述关键词提取的具体方法为：所述关键词提取包括两种算法，一种是改进的基于文档主体结构的算法，另一种是改进的机遇文档主体结构与语义的算法。6.如权利要求5所述一种基于文档主题结构与语义的中文文本关键词提取方法，其特征在于所述改进的基于文档主体结构的算法如下：给定一篇文档，首先分析其包含的内容，构造出文档的主题结构，其目标是将文档分割成多个级别的主题树，每一层包含多个簇，将适当数量的连续文本单元分配给这些簇；主题树的某一层簇的数量会比下一层簇的数量少一个，逐层增加；根据文档的文本内容进行聚类，经过多次迭代建立聚类的层次结构，进而构建文档的主题结构；给定聚类的簇数设k个，目标函数Quality，对于一篇文档，将其分成N个段，迭代分割聚类，最终获得k个簇，并使得目标函数取得最大值；同时满足聚类中的簇只包含连续的文本分段的约束条件，每一次聚类没有两个簇是有交集的，并且每一次聚类包含文档的所有段；对于每个段向量中的权重的计算方法进行改进，通过公式(1-1)求得：其中，指的是段si中的总词数，对词频进行标准化，避免分段包含词语不同的噪音干扰；为了提取文档的关键词，既保留文档上下文信息，又使得关键词多样化，使用改进的重要性得分，用Sig表示；计算每个词语的重要性得分，用Sig(tj)表示，通过公式(1-2)求得：其中，tf(tj,Ii)指的是词语tj在簇Ii里一共出现的次数，tf(tj)指的是词语tj在整个文档中的词频，因此是指词语tj在全文中的重要程度；sf(tj,Ii)是一个指标变量，若簇Ii对应的文本内容包含词语tj，则sf(tj,I...

【专利技术属性】
技术研发人员：王晓黎，林坤辉，邱明，王美红，潘洋彬，杜文源，高楚楚，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人