【技术实现步骤摘要】
数据聚类方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种数据聚类方法及装置。
技术介绍
数据聚类(Clusteranalysis)是对于静态数据分析的一门技术,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。当前,聚类技术正在蓬勃发展,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。现有的聚类方法的中的阈值多为根据人工经验设定,在整个过程中不可改变,对于不同数据源和场景不能够自动选择合适阈值,聚类效果不佳。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据聚类方法及装置,以至少解决现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法,该包括 ...
【技术保护点】
1.一种数据聚类方法,其特征在于,包括:/n获取待聚类数据,并抽取所述待聚类数据的数据特征;/n从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;/n采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。/n
【技术特征摘要】
1.一种数据聚类方法,其特征在于,包括:
获取待聚类数据,并抽取所述待聚类数据的数据特征;
从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;
采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
2.根据权利要求1所述的数据聚类方法,其特征在于,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果包括:
对所述待聚类数据进行预处理,得到处理后的数据;
计算处理后的数据中的各个数据之间的相似度;
按照各个数据之间的相似度进行聚类,得到多个类;
计算所述多个类的聚类准确率;
基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果。
3.根据权利要求2所述的数据聚类方法,其特征在于,基于所述聚类准确率对所述待聚类数据进行迭代聚类,得到所述聚类结果包括:
若所述聚类准确率小于预设阈值,基于所述多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;
采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果。
4.根据权利要求3所述的数据聚类方法,其特征在于,若所述聚类准确率小于预设阈值,则更新聚类阈值之后,所述方法还包括:将更新后的聚类阈值存储在所述预设数据库中。
5.根据权利要求2所述的数据聚类方法,其特征在于,
按照各个数据之间的相似度进行聚类,得到多个类包括:
采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;
按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到所述多个类。
6.根据权利要求3所述的数据聚类方法,其特征在于,采用更新后的聚类阈值对所述待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于所述预设阈值时,得到所述聚类结果包括:
确定所述数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;
基于所述应用场景,对数据聚类处理后得到的聚类准确率大于等于所述预设阈值的多个类的进行排序;
按照排序后的次序对各个类进行展示,得到所述聚类结果。
7.根据权利要求2所述的数据聚类方法,其特征在于,计算所述多个类的聚类准确率包括:采用戴维森保丁指数算法计算所述多个类的聚类准确率。
8.根据权利要求1所述的数据聚类方法,其特征在于,所述数据特征至少包括:数据类型、数据量、数据结构、应用场景。
9.根据权利要求1所述的数据聚类方法,其特征在于,所述聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
10.一种数据聚类装置,其特征在于,包括:
抽取单元,用于获取待聚类数据,并抽取所述待聚类数据的数据特征;
获取单元,用于从预设数据库中获取与所述数据特征相匹配的聚类阈值,其中,所述预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;
聚类单元,采用所述聚类阈值对所述待聚类数据进行数据聚类处理,得到聚类结果。
11.根据...
【专利技术属性】
技术研发人员:赵振财,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。