一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置制造方法及图纸

技术编号：24613494 阅读：22 留言：0更新日期：2020-06-24 01:08

本发明专利技术公开了一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置，所述方法包括：步骤一，获取文本数据；步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；步骤五，剔除相似度低于阈值ε的文本对；步骤六，对剩下的文本对进行聚合，产生聚类类别；步骤七，将产生的聚类类别存储内存数据库；步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。本发明专利技术采用分布式架构和分布式计算模型，在处理速度上有明显提高，还可以提高文本聚类的效果。

A distributed text clustering method, storage medium and computing device based on word bag model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
本专利技术涉及文本处理
，尤其是一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置。
技术介绍
在对海量文本进行语义分析前，会对这些文本通过机器学习的方式进行聚类。传统的单节点聚类计算由于其任务序列为串行，因此在处理速度上存在一定的性能瓶颈，很难在规定的范围时间内对海量文本进行精准的聚类，在面对一些时效性、精准性要求较高的业务场景，这类聚类方法无法胜任。
技术实现思路
本专利技术所要解决的技术问题是：为解决单节点聚类方法所存在的性能瓶颈，提供一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置，该方法使用分布式架构和分布式计算模型提高并行聚类能力，在时效性、精准性要求比较高的场景下，做出及时响应。本专利技术提供的一种基于词袋模型的分布式文本聚类方法，包括如下步骤：步骤一，获取文本数据；步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；步骤五，剔除相似度低于阈值ε的文本对；步骤六，对剩下的文本对进行聚合，产生聚类类别；步骤七，将产生的聚类类别存储至内存数据库；步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。进一步，步骤一中获取文本数据的方法为：将采集的文本数据发送到消息队列中存储。进一步...

【技术保护点】
1.一种基于词袋模型的分布式文本聚类方法，其特征在于，包括如下步骤：/n步骤一，获取文本数据；/n步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；/n步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；/n步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；/n步骤五，剔除相似度低于阈值ε的文本对；/n步骤六，对剩下的文本对进行聚合，产生聚类类别；/n步骤七，将产生的聚类类别存储至内存数据库；/n步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。/n

【技术特征摘要】
1.一种基于词袋模型的分布式文本聚类方法，其特征在于，包括如下步骤：
步骤一，获取文本数据；
步骤二，采用分布式计算模型消费文本数据，形成n个批次文本；
步骤三，对n个批次文本形成两两配对的笛卡尔积，并保留上三角矩阵或下三角矩阵；
步骤四，分布式计算三角矩阵或下三角矩阵中文本对的相似度；
步骤五，剔除相似度低于阈值ε的文本对；
步骤六，对剩下的文本对进行聚合，产生聚类类别；
步骤七，将产生的聚类类别存储至内存数据库；
步骤八，重复步骤一至步骤七，更新内存数据库中的聚类类别。

2.根据权利要求1所述的基于词袋模型的分布式文本聚类方法，其特征在于，步骤一中获取文本数据的方法为：将采集的文本数据发送到消息队列中存储。

3.根据权利要求1所述的基于词袋模型的分布式文本聚类方法，其特征在于，步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为：采用词袋模型，通过计算余弦相似度得到文本对的相似度。

4.根据权利要求1所述的基于词袋模型的分布式文本聚类方法，其特征在于，步骤六中对剩下的文本对进行聚合的方法为：将剩下的文本对的第一个批次文本进行两两聚合；再对聚合后的文本类别进行两两聚合。

5.根据权利要...

【专利技术属性】
技术研发人员：姚春华，曾曦，肖杰，罗殊彦，
申请(专利权)人：中国电子科技集团公司第三十研究所，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人