当前位置: 首页 > 专利查询>上海大学专利>正文

一种单篇文本关键词的提取方法技术

技术编号:4103508 阅读:397 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种单篇文本关键词的提取方法,该方法具体步骤如下:(1)打开领域文集中的单篇文本;(2)文本内容预处理;(3)提取有意义的实词;(4)统计实词的词频;(5)打开领域文集的所有文本;(6)统计实词在领域文集中的篇频;(7)统计搜索引擎检索实词所返回的页面数;(8)用改进的TFIDF词权公式计算单篇文本中所有实词的权重,从中提取一定比例的关键词。该方法能够弥补TFIDF算法的不足,能避免无关领域文集对关键词提取的影响,提高关键词的提取精度,保持关键词提取结果的领域特性。

【技术实现步骤摘要】

本专利技术涉及,具体是涉及一种对TFIDF方法提取 领域文集中单篇文本关键词的改进方法。
技术介绍
单篇文本关键词是文本知识流生成、语义链网络构建、文本语境复杂度和信息量 中文本表示的基本元素。单篇文本关键词的提取精度直接影响到文本分类、聚类、词语关联 分析、文本自动摘要、文本过滤、信息检索、话题检测、标注网页等文本信息处理的质量与效 果。目前对单篇文本关键词提取技术的研究主要有TFIDF方法、朴素贝叶斯分类法、互信 息方法、最大熵模型法、最大似然性和前缀树法等。目前应用最广的单篇文本关键词的提取方法是TFIDF方法。TFIDF方法认为,单 篇文本的关键词应该在文本中经常出现,并且在其他文集中很少出现。TFIDF方法用词权 公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权就是词频TF(Term Frequency)与逆文档频率 IDF(Inverse Document Frequency)的乘积。TFIDF 词权公式如 下TFIDFt = TFt X IDFt = TFt X log (N/nt)其中,TFt为词t的词频,也就是词t在文本中出现的次数。IDFt为词本文档来自技高网...

【技术保护点】
一种单篇文本关键词的提取方法,其特征在于,采用搜索引擎辅助法提取单篇文本的关键词,提高领域文集中单篇文本关键词的提取精度,提高关键词提取的领域特性;所述的搜索引擎辅助法是:通过搜索引擎检验词的普遍性,再通过改进的TFIDF词权公式提取关键词,其具体步骤如下:(1)打开领域文集中的单篇文本;(2)文本内容预处理,包括分词、词性标注;(3)提取有意义的实词;(4)统计实词的词频;(5)打开领域文集的所有文本;(6)统计实词在领域文集中的篇频;(7)统计搜索引擎检索实词所返回的页面数;(8)用改进的TFIDF词权公式计算单篇文本所有实词的权重,从中提取一定比例的关键词。

【技术特征摘要】
一种单篇文本关键词的提取方法,其特征在于,采用搜索引擎辅助法提取单篇文本的关键词,提高领域文集中单篇文本关键词的提取精度,提高关键词提取的领域特性;所述的搜索引擎辅助法是通过搜索引擎检验词的普遍性,再通过改进的TFIDF词权公式提取关键词,其具体步骤如下(1)打开领域文集中的单篇文本;(2)文本内容预处理,包括分词、词性标注;(3)提取有意义的实词;(4)统计实词的词频;(5)打开领域文集的所有文本;(6)统计实词在领域文集中的篇频;(7)统计搜索引擎检索实词所返回的页面数;(8)用改进的TFIDF词权公式计算单篇文本所有实词的权重,从中提取一定比例的关键词。2.按权利要求1所述的一种单篇文本关键词的提取方法,其特征在于,上述步骤(8)中 所述的改进的TFIDF词权公式,记为TFMIDF,其计算式如下TFMDFt = TFtX (a *DIDFt+(l-a )*SIDFt)...

【专利技术属性】
技术研发人员:骆祥峰梁国宁殷晓波张顺香徐炜民
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1