主题聚类排序及高频关键词提取系统及方法技术方案

技术编号：41179311 阅读：2 留言：0更新日期：2024-05-07 22:14

一种主题聚类排序及高频关键词提取系统及方法，通过数据清洗模块去除中文短文本原始数据中部分噪音以提高后续处理流程的效率以及效果；通过数据预处理模块筛选清洗完成的中文短文本数据，得到分词筛选结果集合，即词语集合；通过主题模型模块根据词语集合，通过LDA主题模型得到主题聚类结果及每个主题聚类的高权重词语集合；通过主题模型结果处理模块结合词语集合、事件描述短语集合以及主题模型的高权重词语集合计算关键性排序指标并得出主题聚类排序列表及其对应的重要高频词语集合；本发明专利技术针对中文短文本集的特点进行数据清洗，引入包括中文分词、词性标注筛选等技术并使用狄利克雷分配(LDA)主题模型对文本预处理结果进行计算，配合使用Flink大数据处理平台以提高系统处理能力及可扩展性，显著了提高计算流程的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种信息处理领域的技术，具体是一种基于文字量小、数据量多的中文短文本集的主题聚类排序及高频关键词提取系统及方法。

技术介绍

1、在以往的高频词汇计算及主题聚类方法中，一般是针对新闻的稿件这类长文本进行主题聚类以及关键字提取，从而得到关键字集合进行事件描述。新闻的稿件具有文字量大、描述详尽、且总主题数较少的特点，因此用传统的主题模型技术即可完成此类工作。然而目前的数据处理需求中有不少是针对中文短文本集的(例如评论，社交网站文本等)，其具有表述简略，文字量少，数据量数庞大的特点。同时，也包含很多网络用语，表情词，转义字符，并不能直接运用传统的主题模型进行处理。此外，由于数据量大的特点，短文本集相关的计算需要大数据系统平台的支持，才能满足主题聚类排序并计算对应的高频关键词对于处理速度的需求。

技术实现思路

1、本专利技术针对现有技术存在的上述不足，提出一种主题聚类排序及高频关键词提取系统及方法，针对中文短文本集的特点进行数据清洗，引入包括中文分词、词性标注筛选等技术并使用狄利克雷分配(lda)主题模型对文本预处理结果进行计算，配合使用flink大数据处理平台以提高系统处理能力及可扩展性，显著了提高计算流程的效率。

2、本专利技术是通过以下技术方案实现的：

3、本专利技术涉及一种主题聚类排序及高频关键词提取系统，包括：数据清洗模块、数据预处理模块、主题模型模块、主题模型结果处理模块和flink任务模块，其中：数据清洗模块去除中文短文本原始数据中部分

4、本专利技术涉及一种基于上述系统的主题聚类排序及高频关键词提取方法，包括：

5、步骤1：采用正则表达式技术去除短文本数据中的噪音；

6、所述的噪音包括但不限于：网址信息、平台信息、表情词、提及信息和网页转义字符。

7、步骤2：对步骤1中清洗完成的文本数据进行预处理以及筛选，具体包括：

8、2.1)中文分词：对中文短文本以及提取的主题描述短语进行分词处理。

9、2.2)提取主题描述：在大部分中文短文本集合中，都会使用相关符号进行相关主题的概括叙述，因此将其提取作为文本相关主题描述。对于其余不包含此类标志符号的短文本，采用第一段自然句作为主题描述。

10、2.3)词性标注筛选：对分词处理结果进行词性筛选：对文本分词结果而言，保留动词与名词进行后续计算，对其余词性进行删去；对主题描述短语，使用包含筛选后词语最多的主题描述。

11、步骤3：根据步骤2的分词筛选结果集合，即词语集合构建lda主题模型，通过lda主题模型，得到主题聚类结果及每个主题聚类的高权重词语集合。

12、步骤4：建立lda模型得到的主题聚类的高权重词语及其权重与主题描述的联系，并通过关键性排序指标进行主题聚类排序，包括：

13、4.1)对短文本分词结果中的每一个词语建立其对应的词语-文本主题描述记频表。

14、4.2)对主题模型计算得到的高权重词语集合中的每一个词语w，获取其权重及在上一步中得到的对应的词语-文本主题描述记频表。

15、4.3)对词语w的词语-文本主题描述记频表中的每一个主题描述短语e，进行权重值w的计算。

16、4.4)对当前的文本主题描述短语e建立词语权重表。

17、4.5)对整体的主题聚类短语权重表，以及当前的文本主题描述短语e所对应的词语权重表，均累加上步骤4.3)中所计算得出的权重w。

18、4.6)在以上的循环完成后，对总的文本主题聚类短语权重表，按计算完毕后的总权重wtotal进行降序排序，得到前n个高权重的主题描述短语。同时对这n个主题描述短语所对应的词语权重表，按词语权重进行降序排序，得到每个文本主题描述短语对应的前m个高权重词语，从而完成对主题聚类的排序及对应的高频关键词的计算。

19、优选地，针对上述过程中的性能瓶颈，即步骤2使用pyflink库进行基于flink平台的改写实现，进行并行化集群计算处理，提高系统的处理速度：在flink处理流程中，包含数据源(data source)，即清洗完毕的中文短文本数据集合的指定、数据处理，即步骤2中所描述的中文分词、提取文本主题描述、词性标注筛选的方法和数据仓库(data sink)，即文本集合的分词结果集合以及相对应的事件描述短语集合的指定。

20、技术效果

21、本专利技术通过设计算法，建立词语-文本主题描述记频表并设计算法计算其整体权重，对lda主题模型处理结果进行处理。并在主题模型计算前，引入中文词性筛选，仅保留动词与名词进行后续计算。本专利技术通过对lda主题模型的计算结果处理算法，建立了中文短文本数据集合整体的主题聚类排序及对应的高频关键词。通过引入中文词性筛选，减少了计算量的同时，也提高了最后主题聚类对应的高频关键词集的质量。

本文档来自技高网...

【技术保护点】

1.一种主题聚类排序及高频关键词提取系统，其特征在于，包括：数据清洗模块、数据预处理模块、主题模型模块、主题模型结果处理模块和Flink任务模块，其中：数据清洗模块去除中文短文本原始数据中部分噪音以提高后续处理流程的效率以及效果；数据预处理模块通过中文分词、词性标注等技术筛选清洗完成的中文短文本数据，得到分词筛选结果集合，并根据短文本集合，处理得到事件描述短语集合；主题模型模块根据词语集合，通过LDA主题模型得到主题聚类结果及每个主题聚类的高权重词语集合；主题模型结果处理模块结合词语集合、事件描述短语集合以及主题模型的高权重词语集合计算关键性排序指标并得出主题聚类排序列表及其对应的重要高频词语集合；Flink任务模块通过Flink平台，对数据预处理模块进行并行化集群计算处理，从而提高算法流程的处理速度。

2.一种基于权利要求1所述系统的主题聚类排序及高频关键词提取方法，其特征在于，包括：

3.根据权利要求2所述的主题聚类排序及高频关键词提取方法，其特征是，所述的噪音包括：网址信息、平台信息、表情词、提及信息和网页转义字符。

4.根据权利要求2所

5.根据权利要求2-4中任一所述的主题聚类排序及高频关键词提取方法，其特征是，针对步骤2使用pyflink库进行基于Flink平台的改写实现，进行并行化集群计算处理，提高系统的处理速度，具体为：在Flink处理流程中，包含数据源，即清洗完毕的中文短文本数据集合的指定、数据处理，即步骤2中所描述的中文分词、提取文本主题描述、词性标注筛选的方法和数据仓库，即文本集合的分词结果集合以及相对应的事件描述短语集合的指定。

...

【技术特征摘要】

1.一种主题聚类排序及高频关键词提取系统，其特征在于，包括：数据清洗模块、数据预处理模块、主题模型模块、主题模型结果处理模块和flink任务模块，其中：数据清洗模块去除中文短文本原始数据中部分噪音以提高后续处理流程的效率以及效果；数据预处理模块通过中文分词、词性标注等技术筛选清洗完成的中文短文本数据，得到分词筛选结果集合，并根据短文本集合，处理得到事件描述短语集合；主题模型模块根据词语集合，通过lda主题模型得到主题聚类结果及每个主题聚类的高权重词语集合；主题模型结果处理模块结合词语集合、事件描述短语集合以及主题模型的高权重词语集合计算关键性排序指标并得出主题聚类排序列表及其对应的重要高频词语集合；flink任务模块通过flink平台，对数据预处理模块进行并行化集群计算处理，从而提高算法流程的处理速度。

2.一种基于权利要求1...

【专利技术属性】
技术研发人员：袁添镱，陶心旋，唐新怀，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人