一种文本串行聚类方法、装置及存储介质制造方法及图纸

技术编号:42904404 阅读:28 留言:0更新日期:2024-09-30 15:20
本发明专利技术公开了一种文本串行聚类方法、装置及存储介质,本发明专利技术通过神经网络模型对文本数据进行编码处理得到文本特征向量,通过第一聚类子模块对文本特征向量进行第一聚类处理,通过第二聚类子模块对第一聚类处理结果进行第二聚类处理得到最终类簇集合;将文本特征向量的整体特征用于聚类处理,避免了关键词提取准确率等信息损耗传导到聚类处理中,有利于提高聚类效果;通过第一聚类处理结合第二聚类处理实现串行聚类处理,通过不同的聚类组合有利于生成稳定的最终类簇集合,提高聚类准确性以及稳定性;对最终类簇集合进行关键要素提取处理得到类簇要素集合,将类簇要素集合输入至文本生成模型生成文本数据的概要描述,利于提高概要描述的准确度。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其是一种文本串行聚类方法、装置及存储介质


技术介绍

1、目前针对文本中包含的事件进行聚类,主要依赖于文本聚类技术:通过将待聚类文本转换为特征表示向量,将特征表示向量输入到聚类算法中进行聚类计算,临近相似的向量形成类簇,并将类簇与向量的关系映射为类簇与文本的关系。然而,现今的文本聚类技术,通常对文本进行关键词提取,对提取的关键词进行聚类,因此依赖于关键词提取的准确度,存在一定的信息误差累积,聚类效果差;聚类过程中通常采用单一的算法通过优化算法的参数以得到一个相对满足的结果,聚类效果以及稳定性差。


技术实现思路

1、有鉴于此,为了解决上述技术问题的至少之一,本专利技术的目的是提供一种文本串行聚类方法、装置、设备及存储介质,提高聚类准确性以及稳定性。

2、本专利技术实施例提供了一种文本串行聚类方法,包括:

3、获取待处理的文本数据;

4、通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量;

5、通过第一聚类子模块对所述文本特征向本文档来自技高网...

【技术保护点】

1.一种文本串行聚类方法,其特征在于,包括:

2.根据权利要求1所述文本串行聚类方法,其特征在于:所述通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量,包括:

3.根据权利要求1-2任一项所述文本串行聚类方法,其特征在于:所述通过第一聚类子模块对所述文本特征向量进行第一聚类处理,包括:

4.根据权利要求3所述文本串行聚类方法,其特征在于:所述通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合,包括:

5.根据权利要求4所述文本串行聚类方法,其特征在于:所述对所述最终类簇集合进行关键要素提取处理,得到类簇要素集...

【技术特征摘要】

1.一种文本串行聚类方法,其特征在于,包括:

2.根据权利要求1所述文本串行聚类方法,其特征在于:所述通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量,包括:

3.根据权利要求1-2任一项所述文本串行聚类方法,其特征在于:所述通过第一聚类子模块对所述文本特征向量进行第一聚类处理,包括:

4.根据权利要求3所述文本串行聚类方法,其特征在于:所述通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合,包括:

5.根据权利要求4所述文本串行聚类方法,其特征在于:所述对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合,包括:

6.根据权利要求5所述文本串行聚类方法,其特征在于:所述对所述第一类簇以及所述第二类簇进行关键词...

【专利技术属性】
技术研发人员:康明吉王舒王明鹏
申请(专利权)人:广东亿迅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1