一种文本主题聚类方法、计算设备及存储介质技术

技术编号:41116054 阅读:37 留言:0更新日期:2024-04-25 14:06
本发明专利技术公开了一种文本主题聚类方法,包括以下步骤:步骤一:从多个来源收集待聚类的文本,对待聚类的文本进行文本预处理;步骤二:对Bertopic模型进行建模,生成主题模型,通过主题模型对预处理后的文本进行主题聚类,输出主题聚类结果;步骤三:或者通过Louvain算法对预处理后的文本进行聚类,输出文本主题的聚类结果;通过对文本文档数据进行预处理,去除了大量无意义的分词,且使用了更适合文本主题聚类的Bertopic模型,减少了短文本主题聚类的处理时间,同时通过Louvain算法能够自动地将大量具有相似语义的触发词聚在一起,为事件抽取提供极大便利。

【技术实现步骤摘要】

本专利技术涉及数据聚类,具体是一种文本主题聚类方法、计算设备及存储介质


技术介绍

1、随着internet技术的飞速发展,越来越多的应用可以产生文本信息。从多源文本数据集中挖掘其主题信息以及文本结构对于很多应用程序都是非常有必要的。例如,新闻热点分析的应用可以发现来自各种新闻网站、论坛和社交媒体的文本信息,以了解社会关注的热点问题。人们通过分析市民热线、交通公告牌等各种来源的交通信息,发现突发交通事故。主题模型是目前较为流行的文本挖掘方法之一。挖掘多源文本数据集中的文本信息是亟待解决的技术问题。


技术实现思路

1、本专利技术的目的在于提供一种基于louvain算法的文本主题聚类方法,以解决上述
技术介绍
中提出的挖掘多源文本数据集中的文本信息的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、第一方面,提供一种文本主题聚类方法,包括:

4、从多个来源收集待聚类的文本,对待聚类的文本进行文本预处理;

5、利用bertopic模型建模,生成主题模型,通过主本文档来自技高网...

【技术保护点】

1.一种文本主题聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种文本主题聚类方法,其特征在于,所述利用Bertopic模型建模,生成主题模型,之前,通过最大期望算法计算Bertopic模型的参数。

3.根据权利要求2所述的一种文本主题聚类方法,其特征在于,所述最大期望算法为EM采样算法或BFGS采样算法,通过EM采样算法和/或BFGS采样算法迭代计算Bertopic模型的参数。

4.根据权利要求3所述的一种文本主题聚类方法,其特征在于,所述最大期望算法计算Bertopic模型的参数,具体包括以下步骤:

5.根据权利要求1所述的一种...

【技术特征摘要】

1.一种文本主题聚类方法,其特征在于,包括:

2.根据权利要求1所述的一种文本主题聚类方法,其特征在于,所述利用bertopic模型建模,生成主题模型,之前,通过最大期望算法计算bertopic模型的参数。

3.根据权利要求2所述的一种文本主题聚类方法,其特征在于,所述最大期望算法为em采样算法或bfgs采样算法,通过em采样算法和/或bfgs采样算法迭代计算bertopic模型的参数。

4.根据权利要求3所述的一种文本主题聚类方法,其特征在于,所述最大期望算法计算bertopic模型的参数,具体包括以下步骤:

5.根据权利要求1所述的一种文本主题聚类方法,其特征在于,所述文本预处理的方法是进行分词,去停用词、低频词和标点数字。

6.根据权利要求5所述的一种文本主题聚类方法,其特征在于,所述分词的方法包括,获取目标文本语料,基于预训练...

【专利技术属性】
技术研发人员:黄山刘光达何磊吕济民张勇陈宇宁刘晓路杜永浩闫俊刚程力潘雨陈英武陈盈果王沛沈大勇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1