一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置制造方法及图纸

技术编号:24613494 阅读:22 留言:0更新日期:2020-06-24 01:08
本发明专利技术公开了一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置,所述方法包括:步骤一,获取文本数据;步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;步骤五,剔除相似度低于阈值ε的文本对;步骤六,对剩下的文本对进行聚合,产生聚类类别;步骤七,将产生的聚类类别存储内存数据库;步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。本发明专利技术采用分布式架构和分布式计算模型,在处理速度上有明显提高,还可以提高文本聚类的效果。

A distributed text clustering method, storage medium and computing device based on word bag model

【技术实现步骤摘要】
一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
本专利技术涉及文本处理
,尤其是一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置。
技术介绍
在对海量文本进行语义分析前,会对这些文本通过机器学习的方式进行聚类。传统的单节点聚类计算由于其任务序列为串行,因此在处理速度上存在一定的性能瓶颈,很难在规定的范围时间内对海量文本进行精准的聚类,在面对一些时效性、精准性要求较高的业务场景,这类聚类方法无法胜任。
技术实现思路
本专利技术所要解决的技术问题是:为解决单节点聚类方法所存在的性能瓶颈,提供一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置,该方法使用分布式架构和分布式计算模型提高并行聚类能力,在时效性、精准性要求比较高的场景下,做出及时响应。本专利技术提供的一种基于词袋模型的分布式文本聚类方法,包括如下步骤:步骤一,获取文本数据;步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;步骤五,剔除相似度低于阈值ε的文本对;步骤六,对剩下的文本对进行聚合,产生聚类类别;步骤七,将产生的聚类类别存储至内存数据库;步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。进一步,步骤一中获取文本数据的方法为:将采集的文本数据发送到消息队列中存储。进一步,步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为:采用词袋模型,通过计算余弦相似度得到文本对的相似度。进一步,步骤六中对剩下的文本对进行聚合的方法为:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合。进一步,步骤八中更新内存数据库中的聚类类别的方法为:(1)重复步骤一至步骤六产生新的聚类类别;(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六;(3)执行步骤七,将再次执行步骤六产生的聚类类别存储至内存数据库。进一步,所述分布式文本聚类方法,还包括对内存数据库中的文本数据进行衰减的步骤,该衰减的方法为:删除每次进行聚合的样本中,出现次数小于等于衰减阈值η的词组。进一步,η=3。本专利技术还提供一种计算机终端可读介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行所述的基于词袋模型的分布式文本聚类方法。本专利技术还提供一种计算装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于词袋模型的分布式文本聚类方法。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术采用分布式架构和分布式计算模型,相比传统的单节点文本聚类方法,在处理速度上有明显提高;另外,可以对同一批次中的文本进行两两配对的相似度计算,剔除不相似文本,对相似文本进行高度融合,可以提高文本聚类的效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术基于词袋模型的分布式文本聚类方法的流程框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,即所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。以下结合实施例对本专利技术的特征和性能作进一步的详细描述。如图1所示,本实施例提供的一种基于词袋模型的分布式文本聚类方法,包括如下步骤:步骤一,获取文本数据;其中,文本数据通过自动化采集并存储在数据库中,为了方便处理,在处理文本数据时,获取文本数据的方法采用:将采集的文本数据发送到消息队列中存储。所述消息队列根据需求选择时效性高、存储能力强、并发性好的消息队列。步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;其中,每个批次文本由若干个词组组成;即,将n个批次文本作为分布式计算的n个批次计算单元;所述批次文本如:a1、a2、…、an批次文本;步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;其中,通过对n个批次文本形成笛卡尔积进行两两配对,如:只保留上三角矩阵或下三角矩阵,如:步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;本实施例中采用词袋模型,通过计算余弦相似度得到文本对的相似度,如:步骤五,剔除相似度低于阈值ε的文本对;一般地,所述阈值ε可以根据需求在范围[0,1]中进行任意设置,通常取值为0.5,剔除后的文本对如:步骤六,对剩下的文本对进行聚合,产生聚类类别;其中,对剩下的文本对进行聚合的方法采用:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合。例如,假设a1、a3、an属于A类强关联的批次文本,a2属于B类强关联的批次文本,则产生的聚类类别如下:步骤七,将产生的聚类类别存储至内存数据库;步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别;具体地:(1)重复步骤一至步骤六产生新的聚类类别;(2)将重复步骤一至步骤七产生的新的聚类类别与内存数据库中的聚类类别再次执行步骤六;(3)执行步骤七,将再次执行步骤六产生的聚类类别存储至内存数据库。通过步骤八,内存数据库中存储的数据累积增加,为了避免数据繁杂庞大,因此需要根据时效性对内存数据库中的文本数据进行衰减,衰减方法为:删除每次进行聚合的样本数据(即参与聚合的文本对)中,出现次数小于等于衰减阈值η的词组。一般地,η=3时,衰减效果最好。此外,在一些实施例中,提出一种计算机终端可读介质,存储有计算机终端可执行指令,其特征在于,所述计算机终端可执行指令用于执行如前文实施例所述的基于词袋模型的分布式文本聚类方法。计算机可读介质的示例包括磁性存储介质(例如,软盘、硬盘等)、光学记录介质(例如,CD-ROM、DVD等)或本文档来自技高网...

【技术保护点】
1.一种基于词袋模型的分布式文本聚类方法,其特征在于,包括如下步骤:/n步骤一,获取文本数据;/n步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;/n步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;/n步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;/n步骤五,剔除相似度低于阈值ε的文本对;/n步骤六,对剩下的文本对进行聚合,产生聚类类别;/n步骤七,将产生的聚类类别存储至内存数据库;/n步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。/n

【技术特征摘要】
1.一种基于词袋模型的分布式文本聚类方法,其特征在于,包括如下步骤:
步骤一,获取文本数据;
步骤二,采用分布式计算模型消费文本数据,形成n个批次文本;
步骤三,对n个批次文本形成两两配对的笛卡尔积,并保留上三角矩阵或下三角矩阵;
步骤四,分布式计算三角矩阵或下三角矩阵中文本对的相似度;
步骤五,剔除相似度低于阈值ε的文本对;
步骤六,对剩下的文本对进行聚合,产生聚类类别;
步骤七,将产生的聚类类别存储至内存数据库;
步骤八,重复步骤一至步骤七,更新内存数据库中的聚类类别。


2.根据权利要求1所述的基于词袋模型的分布式文本聚类方法,其特征在于,步骤一中获取文本数据的方法为:将采集的文本数据发送到消息队列中存储。


3.根据权利要求1所述的基于词袋模型的分布式文本聚类方法,其特征在于,步骤四中分布式计算三角矩阵或下三角矩阵中文本对的相似度的方法为:采用词袋模型,通过计算余弦相似度得到文本对的相似度。


4.根据权利要求1所述的基于词袋模型的分布式文本聚类方法,其特征在于,步骤六中对剩下的文本对进行聚合的方法为:将剩下的文本对的第一个批次文本进行两两聚合;再对聚合后的文本类别进行两两聚合。


5.根据权利要...

【专利技术属性】
技术研发人员:姚春华曾曦肖杰罗殊彦
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1