一种文本聚类方法及装置制造方法及图纸

技术编号:15822745 阅读:65 留言:0更新日期:2017-07-15 04:56
本发明专利技术实施例提供了一种文本聚类方法及装置,其中,所述方法包括:获取多个待聚类文本;分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;根据该对应关系,将多个待聚类文本进行聚类。通过本发明专利技术实施例提供的文本聚类方法及装置,可以简化文本聚类的计算过程、提高计算效率。

【技术实现步骤摘要】
一种文本聚类方法及装置
本专利技术涉及数据挖掘
,特别是涉及一种文本聚类方法及装置。
技术介绍
随着互联网与物联网应用日益普及,网络更加智能化,网络的数据量也呈现爆炸的趋势。而大数据的特征就是海量、多样与实时性,这些对数据的管理、分析、处理提出了很高的要求。为了使用户从大量的数据中读取自己感兴趣的或者自己需要的信息,需要通过一些手段对数据进行处理,例如数据挖掘、自然语言处理(NaturalLanguageProcessing,NLP)、大规模数据集的并行运算(Hadoop)、高性能与高可扩展性数据库(NoSQL)、数据可视化技术等技术。数据挖掘是大数据处理的一个重要的手段,而聚类是数据挖掘中一个重要的分析方法。聚类,将相似的数据对象划分到对应的分组或子集,从而使得具有相似属性的数据能被划分到同一个子集中,以实现将数据集类别划分的目的。其中,文本聚类是从很多文本中把一些内容相似的文本聚为一类。文本聚类主要是依据聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。现有的文本聚类方法,将文本表示为特征向量,然后通过计算文本对应的特征向量、计算文本之间的相似度;最后,根据文本之间本文档来自技高网...
一种文本聚类方法及装置

【技术保护点】
一种文本聚类方法,其特征在于,包括:获取多个待聚类文本;分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;根据所述对应关系,将多个待聚类文本进行聚类。

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:获取多个待聚类文本;分别提取多个待聚类文本的关键词,并保存每个待聚类文本、与待聚类文本的关键词的对应关系;根据所述对应关系,将多个待聚类文本进行聚类。2.根据权利要求1所述的文本聚类方法,其特征在于,所述根据所述对应关系,将多个待聚类文本进行聚类,包括:按照将具有相同关键词的不同待聚类文本划分为同一类别的过程,将多个待聚类文本划分为不同类别,完成多个待聚类文本的聚类;其中,同一类别中所有待聚类文本具有的相同关键词,为所述类别的关键词标签,同一类别中所有待聚类文本,为所述类别的关键词标签对应的聚合文本。3.根据权利要求2所述的文本聚类方法,其特征在于,所述方法还包括:显示所有关键词标签。4.根据权利要求3所述的文本聚类方法,其特征在于,所述方法还包括:接收用户选择第一关键词标签的指令;查找所述第一关键词标签对应的聚合文本;向用户展示所述第一关键词标签对应的聚合文本。5.根据权利要求1所述的文本聚类方法,其特征在于,所述提取多个待聚类文本的关键词,包括:提取待聚类文本的标题的第一关键词;将所述第一关键词,作为所述待聚类文本的关键词。6.根据权利要求1所述的文本聚类方法,其特征在于,所述提取多个待聚类文本的关键词,包括:分别计算每个待聚类文本中的所有词的词频,其中,所述词...

【专利技术属性】
技术研发人员:沈文策
申请(专利权)人:福建中金在线信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1