【技术实现步骤摘要】
聚类方法和聚类设备
本公开涉及自然语言处理的领域,更具体地说,涉及一种聚类方法和聚类设备。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,这是人们长期以来所追求的。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,并能基于所理解的意义实现对文本的预定处理。聚类是自然语言处理中的一个重要分支。简单来说,聚类就是从很多文本中把一些内容相似的文本聚为一类。对于具有相应主题的文本来说,通过聚类,可以高效率地实现海量文本的处理。以用户反馈为例进行说明。当用户使用某一产品时,会将产品使用期间遇到的问题以文本的形式反馈给产品的后台。后台通过搜集整理来自用户的反馈信息来对产品进行修复和改进。这对产品性能,尤其是新性能、新模块的监督以及问题的然而,用户反馈文本常常是海量的。通过对用户反馈文本进行基于主题的聚类,可以使得产品的后台服务人员根据不同的主题批量地处理用户反馈,从而能够极大地提高处理效率和质量。不同的用户反馈所表达的问题不同,并会不断有新的问 ...
【技术保护点】
1.一种聚类方法,包括:针对经过预处理的语料数据,提取至少一个频繁项,所述频繁项为在所述语料数据的句子中同时出现的次数大于第一预定阈值的词组集合;以每一个频繁项作为关键词组,建立多个类;以及确定所述语料数据中的每一个句子所对应的一个频繁项,并将所述句子分配到以确定的频繁项作为关键词组的类中。
【技术特征摘要】
1.一种聚类方法,包括:针对经过预处理的语料数据,提取至少一个频繁项,所述频繁项为在所述语料数据的句子中同时出现的次数大于第一预定阈值的词组集合;以每一个频繁项作为关键词组,建立多个类;以及确定所述语料数据中的每一个句子所对应的一个频繁项,并将所述句子分配到以确定的频繁项作为关键词组的类中。2.根据权利要求1所述的方法,其中所述词组集合中包括的词的最大数量大于2。3.根据权利要求1所述的方法,其中确定所述语料数据中的每一个句子所对应的一个频繁项包括:当一个句子中出现多个频繁项时,基于频繁项中包含的词语数量以及频繁项在所述语料数据中出现的次数,确定频繁项的分数;以及将分数最高的频繁项确定为该句子所对应的一个频繁项。4.根据权利要求1所述的方法,进一步包括:基于层次聚类,对所述多个类进行合并;以及以合并后得到的各个类更新所述多个类。5.根据权利要求4所述的方法,进一步包括:针对更新后的所述多个类中的每一个,在所述类包括的至少一个关键词组中选择一个,作为所述类的关键词组。6.根据权利要求4所述的方法,其中基于层次聚类,对所述多个类进行合并进一步包括:确定各类对应的向量之间的相似度,将相似度大于第二预定阈值的类合并;以及对于合并后得到的各个类,重复地执行确定相似度以及基于相似度合并的处理,直至不再存在相似度大于第二预定阈值的两个类为止。7.根据权利要求5所述的方法,其中针对更新后的所述多个类中的每一个,在所述类包括的至少一个关键词组中选择一个,作为所述类的关键词组包括:针对每一个类包括的至少一个关键词组,基于关键词组中包含的词数以及关键词组在类中出现的次数,确定关键词组的分数;以及将分数最高的关键词组确定为该类的关键词组。8.根据权利要求1或4所述的方法,进一步包括:确定所述多个类中的每一个类的摘要。9.根据权利要求8所述的方法,其中确定所述多个类中的每一个类的摘要包括:针对所述多个类中的每一个,执行如下处理:对一个类中的每一个句子进行向量化;基于各个句子所对应的向量之间的相似度进行聚类,以得到每一个均包含多个句子的多个子类;分别从包含句子...
【专利技术属性】
技术研发人员:闫桂霞,林媛,王晓利,王瑞琛,伍海江,
申请(专利权)人:腾讯科技武汉有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。