The invention discloses a method for extracting hot words from unstructured text based on clustering, which belongs to the technical field of natural language processing. The method for extracting hot words from unstructured text based on clustering includes the following steps: S1: text data preprocessing; S2: text vectorization of preprocessed text data: transforming text data into digital data expression by vectorization technology; S3: dimensionality reduction of vectors to extract main features; S4: clustering using dimensionality reduction vectors; S5: According to the clustering results, hot words under each category are extracted. The invented clustering-based hot words extraction method for unstructured text is simple and effective, can greatly reduce data redundancy, only retain relatively important information, and has good application value.
【技术实现步骤摘要】
一种基于聚类的非结构化文本的热点词提取方法
本专利技术涉及自然语言处理
,具体提供一种基于聚类的非结构化文本的热点词提取方法。
技术介绍
热点指的是比较受广大群众关注,或者比较受广大群众欢迎的新闻或信息,或者指某时期引人注目的地方或问题。随着互联网的兴起和发展,人们越来越多的从网络上了解国家大事、世界新闻等信息。这些信息随着互联网的发展其数量也与日俱增,面对这些非结构化文本数据,怎样才能帮助大众更好的抓住主要信息,掌握热带动态成为关键。自然语言处理技术发挥了巨大的作用,自然语言处理作为计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。现在互联网的发展,每天各种新闻铺天盖地,人们只能泛泛浏览,而对于近段时间内究竟有哪些新闻是关注度最高的热点新闻很难悉知。
技术实现思路
本专利技术的技术任务是针对上述存在的问题,提供一种简单有效,能够极大的较少数据的冗余,只保留相对重要的信息的基于聚类的非结构化文本的热点词提取方法。为实现上述目的,本专利技术提供了如下技术方案:一种基于聚类的非结构化文本的热点词提取方法,该方法包括以下步骤:S1:文本数据预处理;S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;S3:对向量进行降维处理,提取主要特征;S4:使用降维后的向量进行聚类;S5:根据文本聚类结果,提取每类下的热点词。作为优选,该方法还包括以下步骤S6:人工干预。作为优选,步骤S1数据预处理过程为,去除无用的字符及特定的表达,然后进行分词及词性标注,去除停用词,使用普通停用 ...
【技术保护点】
1.一种基于聚类的非结构化文本的热点词提取方法,其特征在于:该方法包括以下步骤:S1:文本数据预处理;S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;S3:对向量进行降维处理,提取主要特征;S4:使用降维后的向量进行聚类;S5:根据文本聚类结果,提取每类下的热点词。
【技术特征摘要】
1.一种基于聚类的非结构化文本的热点词提取方法,其特征在于:该方法包括以下步骤:S1:文本数据预处理;S2:对预处理的文本数据进行文本向量化:利用向量化技术将文本数据转化为数字数据表达;S3:对向量进行降维处理,提取主要特征;S4:使用降维后的向量进行聚类;S5:根据文本聚类结果,提取每类下的热点词。2.根据权利要求1所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:该方法还包括以下步骤S6:人工干预。3.根据权利要求2所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S1数据预处理过程为,去除无用的字符及特定的表达,然后进行分词及词性标注,去除停用词,使用普通停用词表。4.根据权利要求3所述的基于聚类的非结构化文本的热点词提取方法,其特征在于:步骤S2对预处理的文本数据进行文本向量化的过程采用词袋模型或者TFIDF模型或者Word2vec向量化模型首先得到每个词的向量,将词的向量进行叠加得到文本的向量。5.根据权利要求4所述的基于聚类的非结构化...
【专利技术属性】
技术研发人员:王盼盼,张娴,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。