用于数据聚类的方法、装置、设备、介质和产品制造方法及图纸

技术编号:29673364 阅读:27 留言:0更新日期:2021-08-13 21:55
本申请公开了用于数据聚类的方法、装置、设备、介质和产品,涉及人工智能技术领域,进一步涉及自然语言处理技术领域。具体实现方案为:获取待聚类信息;确定待聚类信息对应的向量集合;在向量集合中确定每个语义类别对应的向量;将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。本实现方式可以提高数据聚类速度和精准度。

【技术实现步骤摘要】
用于数据聚类的方法、装置、设备、介质和产品
本公开涉及人工智能
,进一步涉及自然语言处理
,尤其涉及用于数据聚类的方法、装置、设备、介质和产品。
技术介绍
目前,网络上的待聚类信息越来越多,这些待聚类信息中包含丰富的舆情信息。对此,为了实现舆情监测,需要对这些待聚类信息进行聚合分析,从海量待聚类信息中快速提炼出有效的聚类数据。然而,在实践中发现,现在对于待聚类信息进行数据聚类时,往往是基于待聚类信息的文本进行聚合分析,从而导致聚合时间长,难以实现实时聚类。可见,现在的数据聚类方式存在着聚类效果较差的问题。
技术实现思路
本公开提供了一种用于数据聚类的方法、装置、设备、介质和产品。根据第一方面,提供了一种用于数据聚类的方法,包括:获取待聚类信息;确定待聚类信息对应的向量集合;在向量集合中确定每个语义类别对应的向量;将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。根据第二方面,提供了一种用于数据聚类的装置,包括:数据获取单元,被配置成获取待聚类信息;集合确定单元,被配置成本文档来自技高网...

【技术保护点】
1.一种用于数据聚类的方法,包括:/n获取待聚类信息;/n确定所述待聚类信息对应的向量集合;/n在所述向量集合中确定每个语义类别对应的向量;/n将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。/n

【技术特征摘要】
1.一种用于数据聚类的方法,包括:
获取待聚类信息;
确定所述待聚类信息对应的向量集合;
在所述向量集合中确定每个语义类别对应的向量;
将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合。


2.根据权利要求1所述的方法,其中,所述将各个语义类别对应的向量进行聚类,得到各个语义类别对应的聚类数据集合,包括:
对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合;
对于所述聚类簇集合中的每个聚类簇,基于该聚类簇的簇中心,确定该聚类簇的聚类数据;
基于所述聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合。


3.根据权利要求2所述的方法,其中,所述对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:
对于各个语义类别中的每个语义类别,确定该语义类别对应的每个向量的相似度信息和近邻索引信息;
基于该语义类别对应的各个向量的相似度信息,确定该语义类别对应的各个向量的向量顺序;
基于所述向量顺序和所述近邻索引信息,遍历该语义类别对应的各个向量,确定该语义类别对应的各个向量所在的聚类簇;
基于该语义类别对应的各个向量所在的各个聚类簇,确定该语义类别对应的所述聚类簇集合。


4.根据权利要求2所述的方法,其中,所述对于各个语义类别中的每个语义类别,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合,包括:
对于各个语义类别中的每个语义类别,从该语义类别对应的向量中确定抽样向量;
基于所述抽样向量,确定索引信息;
基于所述索引信息,对该语义类别对应的向量进行聚类,得到该语义类别对应的聚类簇集合。


5.根据权利要求2所述的方法,其中,所述基于所述聚类簇集合对应的各个聚类数据,确定该语义类别对应的聚类数据集合,包括:
对于所述聚类簇集合中的每个聚类数据,在该聚类数据所在聚类簇中,确定与该聚类数据对应的支持信息;
基于所述聚类簇集合对应的各个聚类数据和每个聚类数据对应的支持信息,确定该语义类别对应的聚类数据集合。


6.根据权利要求1所述的方法,其中,所述确定所述待聚类信息对应的向量集合,包括:
对所述待聚类信息进行预处理,得到预处理后的待聚类信息;所述预处理至少包括过滤和/或清洗;
基于所述预处理后的待聚类信息,确定所述向量集合。


7.根据权利要求1所述的方法,其中,所述在所述向量集合中确定每个语义类别对应的向量,包括:
对于所述向量集合中的每个向量,基于预设的语义分类模型,确定该向量对应的语义类别;
基于所述向量集合中各个向量对应的语义类别,确定各个语义类别对应的向量。


8.一种用于数据聚类的装置,包括:
数据获取单元,被配置成获取待聚类信息;
集合确定单元,被配置成确定所述待聚类信息对应的向量集合;
向量确定单元,被配置成在所述向量集合中确定每...

【专利技术属性】
技术研发人员:章文俊周厚谦黄强钟辉强卓泽城
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1