【技术实现步骤摘要】
数据聚类的方法及装置本申请为基于母案《数据聚类的方法及装置》的分案申请,母案《数据聚类的方法及装置》的申请日为2015年08月06日,申请号为2015104778346、公开号为CN105095912A。
本专利技术涉及数据处理
,特别是涉及一种数据聚类的方法及装置。
技术介绍
伴随着互联网的快速发展,人们对网络元素进行快速、准确的分类的方法越来越重视。目前常采用聚类算法对网络元素进行分类,其中,在对样本集S{S1,S2,S3…Sn}中的样本进行聚类时,采用如下第一种方案:在K次迭代中,对于任意一个样本Si,求其到聚类中心集M{M1,M2…Mj…Mk}中各个聚类中心点的距离,将该Si划分到距离最近的聚类中心点所在的类集中;利用均值的方法,更新聚类中心集M中的聚类中心点;计算本次迭代产生的类集与上次迭代产生的类集之间的差值,直到该差值满足预置误差条件为止。此方法在进行计算聚类中心点的聚类集时,需要将样本集S中的每个样本分别与聚类中心集M中的每个聚类中心点进行距离计算,即需要进行n*k次点对点的距离计算,计算量较大,耗时较长。为了解决上述第一种方案存在的计算量大,耗时较长的问题目前现有技术中还提供了第二种方案,该方案相对于第一种方案将Si划分到距离最近的聚类中心点所在类集的操作过程进行了改进,改进的方案具体如下:计算聚类中心集M{M1,M2…Mj…Mk}中任意两个聚类中心点之间的距离,并保存;通过三角形不等式原理,即计算Luj与2Lui之间的距离,其中,Luj为聚类中心点Mu与聚类中心点Mj之间的距离,其中,聚类中心点Mu为Si与当前距离Si最近的聚类中 ...
【技术保护点】
1.一种数据聚类的方法,其特征在于,包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。
【技术特征摘要】
1.一种数据聚类的方法,其特征在于,包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第三距离的预测值小于两倍的所述第一距离的预测值,则根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理。3.根据权利要求2所述的方法,其特征在于,所述根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理,包括:计算所述上一次更新后的所述第一聚类中心点与所述样本点之间的距离,得到第一距离的实际值;按照三角形不等式规则将所述第一距离的实际值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的实际值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;若所述第三距离的预测值小于两倍的所述第一距离的实际值,则计算第四距离,并确定所述第四距离是否小于所述第一距离的实际值;其中,所述第四距离为所述样本点与所述第二聚类中心点的距离;若所述第四距离小于所述第一距离的实际值,则将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点。4.根据权利要求3所述的方法,其特征在于,所述将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点,包括:若所述第四距离小于所述第一距离的实际值,并且当前聚类距离遍历完成,则将所述第二聚类中心点赋值给所述上一次更新后的所述第一聚类中心点,以及将所述第四距离赋值给所述第一距离的实际值;若所述第四距离小于所述第一距离的实际值,并且当前聚类距离遍历未完成,则将所述第二聚类中心点赋值给所述上一次更新后的所述第一聚类中心点,以及将所述第四距离赋值给所述第一距离的实际值,并基于赋值后的第一聚类中心点及赋值后的第一距离的实际值继续遍历所述当前聚类中心集中的下一个聚类中心点。5.根据权利要求3所述的方法,其特征在于,将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点,包括:若所述第四距离大于或者等于所述第一距离的实际值,并且当前聚类距离遍历完成,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,并且当前聚类距离遍历未完成,则基于所述上一次更新后的所述第一聚类中心点以及所述第一距离的实际值继续遍历所述当前聚类中心集中的下一个聚类中心点。6.根据权利要求4或5所述的方法,其特征在于,在计算第四距离之前,所述方法还包括:计算第五距离,所述第五距离为所述第二聚类中心点与所述上一次更新后的所述第一聚类中心点之间的距...
【专利技术属性】
技术研发人员:杨诗,向园,洪春晓,吕俊,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。