一种基于统计特征和词图的轻量级中文关键词提取方法技术

技术编号：40843910 阅读：6 留言：0更新日期：2024-04-01 15:11

本发明专利技术公开一种基于统计特征和词图的适用于单篇中文文本的关键词提取方法，包括文本预处理、逐一计算各词的特征、计算各词综合得分、排序和过滤步骤。词的特征包括词频特征、位置特征、分布跨度特征、句子频率特征、特殊词特征和词图分数。本发明专利技术基于统计特征和词图信息，得到了准确的关键词提取结果和有区分度的关键词得分。本发明专利技术具有以下优势：适用于单篇中文文本；轻量级、无需模型训练和额外语料库；广泛的适用于不同领域的文本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种中文关键词提取方法，尤其涉及一种基于统计特征和词图的轻量级中文关键词提取方法，属于文本挖掘。

技术介绍

1、随着信息时代的快速发展，文本数据的量级呈现爆炸式增长。互联网上大多数文章缺少关键词标注，而关键词在对文本数据进行简洁描述、分类、检索等方面具有重要意义。对于检索等需要标注文档的工作，进行人工的标注耗时耗力。通过自动化的标注手段，可以实时地生成关键词列表；对于阅读文章的用户来说，读者通过关键词，无需阅读整篇文章便可了解文章的内容。此外，关键词可以吸引对特定方面感兴趣的用户阅读文章。

2、关键词提取技术分为无监督和有监督方法。其中无监督方法包括基于统计特征的方法和基于词图的方法。基于统计特征的方法基于文本构造出特征，根据特征生成关键词，如tf-idf(term frequency-inverse document frequency)方法通过词频和逆文档频率这两个特征来给词语评分，yake(yet another keyword extractor)通过多个特征给出词语得分。基于词图的方法按照pagerank的想法，将词语在特定窗口下的共现考虑成连接关系，为每个词分配一个得分。有监督的方法通过机器学习的方式，训练关键词提取模型。比如kea(keyphrase extraction algorithm)通过朴素贝叶斯方法来确定关键词，keybert基于bert(bidirectional encoder representation from transformers)模型来确定关键词。