一种文本聚类系统、方法、装置、设备及介质制造方法及图纸

技术编号:32607544 阅读:31 留言:0更新日期:2022-03-12 17:32
本申请提供了一种文本聚类系统,包括聚类装置以及交互装置。其中,聚类装置,用于对多个文本进行聚类,得到初始聚类结果,而交互装置可以呈现从聚类装置获取的初始聚类结果,并响应针对初始聚类结果中第一部分的调整操作,得到第一聚类结果;聚类装置还根据针对于该第一部分的调整操作,将初始聚类结果中的第二部分更新为第二聚类结果。如此,不仅实现了调整后的聚类结果符合用户的预期,而且,用户是直接对聚类结果进行调整,无需根据聚类错误分析如何调整聚类算法的模型参数,以此可以缩短优化聚类结果的耗时,从而可以提高整个文本聚类过程的效率。此外,本申请还提供了一种文本聚类方法、装置、设备及介质。设备及介质。设备及介质。

【技术实现步骤摘要】
一种文本聚类系统、方法、装置、设备及介质


[0001]本申请涉及数据处理
,尤其涉及一种文本聚类系统、方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着信息技术的发展,互联网累计了大量的文本数据。文本聚类技术,通过对文本信息进行有效的组织、摘要和导航,将语义相似度较大的文本汇聚为一簇,以此可以从海量文本数据中挖掘出有效信息。
[0003]在文本聚类过程中,可以采用交互式聚类的方式提高文本聚类的准确率。具体的,聚类算法在给出聚类结果后,用户可以捕捉该聚类结果中所存在的聚类错误,并基于所捕捉到的聚类错误调整聚类算法的模型参数,以便于聚类算法基于调整后的模型重新执行文本聚类过程。如此,基于用户对模型参数的多次调整,最终可以使得聚类算法所输出的聚类结果的准确率能够满足用户的要求。
[0004]但是,基于用户调整聚类算法的模型参数来优化聚类算法输出的聚类结果,这使得整个文本聚类过程的耗时较高,文本聚类效率较低。

技术实现思路

[0005]本申请提供了一种基于协同架构的文本聚类系统,通过对用户未调整的聚本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本聚类系统,其特征在于,所述系统包括:聚类装置、交互装置;所述聚类装置,用于对多个文本进行聚类,得到初始聚类结果;所述交互装置,用于呈现从所述聚类装置获取的所述初始聚类结果,并响应针对所述初始聚类结果中第一部分的调整操作,得到第一聚类结果;所述聚类装置,还用于根据所述调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果。2.根据权利要求1所述的系统,其特征在于,所述聚类装置,还用于对聚类得到所述初始聚类结果的过程中涉及的中间信息进行记录,并根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果。3.根据权利要求2所述的系统,其特征在于,所述中间信息包括所述多个文本中单词之间的相似度、文本之间的相似度、单词的权重值以及单词属性的定义等信息中的任意一种或多种。4.根据权利要求1至3任一项所述的系统,其特征在于,所述调整操作,包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。5.根据权利要求1至4任一项所述的系统,其特征在于,所述聚类装置具体用于:计算所述多个文本中不同文本之间的相似度;根据所述不同文本之间的相似度,计算所述多个文本中不同文本与聚类类目之间的相似度,并基于所述不同文本与聚类类目之间的相似度确定所述初始聚类结果;计算用于表征聚类类目特征的文本与关键词。6.根据权利要求1至5任一项所述的系统,其特征在于,所述多个文本中包括标准文本以及待聚类文本,所述标准文本已完成聚类;所述聚类装置,具体用于根据所述标准文本对所述待聚类文本进行聚类。7.根据权利要求1至6任一项所述的系统,其特征在于,所述聚类装置,具体用于对所述多个文本进行预处理,所述预处理包括分词、错误纠正、去噪、去除停用词、词性检测中的任意一种或多种,并对经过预处理的多个文本进行聚类,得到所述初始聚类结果。8.一种文本聚类方法,其特征在于,所述方法应用于聚类装置,所述方法包括:对多个文本进行聚类,得到初始聚类结果;向交互装置发送所述初始聚类结果;根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:对聚类得到所述初始聚类结果的过程中涉及的中间信息进行记录;则所述根据所述交互装置发送的针对于所述初始聚类结果中第一部分的调整操作,将所述初始聚类结果中的第二部分更新为第二聚类结果,包括:根据所述中间信息以及所述调整操作将所述初始聚类结果中的第二部分更新为所述第二聚类结果。10.根据权利要求9所述的方法,其特征在于,所述中间信息包括所述多个文本中单词
之间的相似度、文本之间的相似度、单词的权重值、以及单词属性的定义等信息中的任意一种或多种。11.根据权利要求8至10任一项所述的方法,其特征在于,所述调整操作,包括所述多个文本中单词属性的定义操作、单词之间关联性定义操作、文本之间关联性定义操作、聚类类目定义操作、噪音标注操作以及聚类类目特征的标注操作中的任意一种或多种。12.根据权利要求8至11任一项所述的方法,其特征在于,所述对多个文本进行聚类,得到初始聚类结果,包括:...

【专利技术属性】
技术研发人员:段新宇秦善夫卢栋才王喆锋怀宝兴袁晶
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1