数据聚类的方法及装置制造方法及图纸

技术编号:20655441 阅读:21 留言:0更新日期:2019-03-23 07:02
本发明专利技术公开了一种数据聚类的方法及装置,涉及数据处理技术领域,主要目的在于解决当聚类中心点较多时,由于每次迭代过程中均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长的问题。本发明专利技术的技术方案包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;根据第二距离、第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值;按照三角形不等式规则将第一距离的预测值与第三距离的预测值进行比较;若第三距离的预测值大于或者等于两倍的第一距离的预测值,则将第二聚类中心点丢弃。本发明专利技术主要应用于使用聚类算法对数据进行分类的过程中。

【技术实现步骤摘要】
数据聚类的方法及装置本申请为基于母案《数据聚类的方法及装置》的分案申请,母案《数据聚类的方法及装置》的申请日为2015年08月06日,申请号为2015104778346、公开号为CN105095912A。
本专利技术涉及数据处理
,特别是涉及一种数据聚类的方法及装置。
技术介绍
伴随着互联网的快速发展,人们对网络元素进行快速、准确的分类的方法越来越重视。目前常采用聚类算法对网络元素进行分类,其中,在对样本集S{S1,S2,S3…Sn}中的样本进行聚类时,采用如下第一种方案:在K次迭代中,对于任意一个样本Si,求其到聚类中心集M{M1,M2…Mj…Mk}中各个聚类中心点的距离,将该Si划分到距离最近的聚类中心点所在的类集中;利用均值的方法,更新聚类中心集M中的聚类中心点;计算本次迭代产生的类集与上次迭代产生的类集之间的差值,直到该差值满足预置误差条件为止。此方法在进行计算聚类中心点的聚类集时,需要将样本集S中的每个样本分别与聚类中心集M中的每个聚类中心点进行距离计算,即需要进行n*k次点对点的距离计算,计算量较大,耗时较长。为了解决上述第一种方案存在的计算量大,耗时较长的问题目前现有技术中还提供了第二种方案,该方案相对于第一种方案将Si划分到距离最近的聚类中心点所在类集的操作过程进行了改进,改进的方案具体如下:计算聚类中心集M{M1,M2…Mj…Mk}中任意两个聚类中心点之间的距离,并保存;通过三角形不等式原理,即计算Luj与2Lui之间的距离,其中,Luj为聚类中心点Mu与聚类中心点Mj之间的距离,其中,聚类中心点Mu为Si与当前距离Si最近的聚类中心点,聚类中心点Mj为当前遍历过程中待遍历的的聚类中心点,Lui为Si与聚类中心点Mu之间的距离;若Luj大于或者等于2Liu,忽略掉聚类中心点Mj,并继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中;若Luj小于2Liu,则计算Si与Mj之间的距离Lij,其中,Lij为样本点Si与聚类中心点Mj之间的距离;当Lij小于Lui时,设置Lui=Lij,Mu=Mj,继续遍历下一个聚类中心点,或者,遍历完成后,将该Si划分到Mu所在的类集中。在实施第二种方案时,专利技术人发现其存在如下问题:在判断某个聚类中心点是否为样本的聚类中心点时,在确定出样本Si与聚类中心集M中最近的聚类中心点Mu之后,基于三角形不等式原理,将聚类中心集M中不可能是Si的聚类中心点进行丢弃,无需计算丢弃的聚类中心点与样本Si之间的距离,能够在一定程度上降低计算量,缩短计算时长;但是,对于一些聚类中心点较多,聚类更精细的需求而言,由于每次迭代过程均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长。
技术实现思路
有鉴于此,本专利技术提供的一种数据聚类的方法及装置,主要目的在于解决当聚类中心点较多时,由于每次迭代过程中均需要计算聚类中心点两两之间的距离,导致计算量较大,耗时较长的问题。依据本专利技术一个方面,本专利技术提供了一种数据聚类的方法,该方法包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。依据本专利技术另一个方面,本专利技术提供了一种数据聚类的装置,该装置包括:第一获取单元,用于根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;第二获取单元,用于根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;比较单元,用于按照三角形不等式规则将所述第一获取单元获取的所述第一距离的预测值与所述第二获取单元获取的所述第三距离的预测值进行比较;丢弃单元,用于当所述比较单元比较的所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值时,将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。借由上述技术方案,本专利技术提供的数据聚类的方法及装置,当前聚类距离遍历过程中,基于上一次更新的聚类中心集,根据第一聚类中心点上次更新前后的自身差值获取第一距离的预测值,该第一距离的预测值为需要进行数据聚类的样本点与该样本点距离最近的聚类中心点之间的距离,根据第二距离、第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,第二距离为上一次聚类距离遍历过程中第一聚类中心点与第二聚类中心点之间的距离,第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点,将第三距离的预测值与第一距离的预测值进行比较,若第三距离的预测值大于或者等于两倍的第一距离的预测值时,将所述第二聚类中心点丢弃。本专利技术中,基于三角形不等式规则,将聚类中心集中的第三距离的预测值大于或者等于两倍的第一距离的预测值对应的第二聚类中心点进行过滤,无需计算第二聚类中心点与样本点之间的距离,也无需计算第二样本点与其他待遍历聚类中心点之间的距离,因此,减少了计算第二样本点与其他待遍历聚类中心点之间的距离所消耗的时间及计算量,提高了数据聚类的计算效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种数据聚类的方法的流程图;图2示出了本专利技术实施例提供的第三距离的预测值大于或者等于两倍的第一距离的预测值的示意图;图3示出了本专利技术实施例提供的第一聚类中心点对第二聚类中心点进行数据聚类处理方法的流程图;图4示出了本专利技术实施例提供了确定样本点对应聚类中心点方法的流程图;图5示出了本专利技术实施例提供的一种数据聚类的装置的组成框图;图6示出本文档来自技高网
...

【技术保护点】
1.一种数据聚类的方法,其特征在于,包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。

【技术特征摘要】
1.一种数据聚类的方法,其特征在于,包括:根据第一聚类中心点上一次更新前后的自身差值获取第一距离的预测值;其中,所述第一距离为需要进行数据聚类的样本点与所述第一聚类中心点之间的距离,所述第一聚类中心点为聚类距离遍历中与所述样本点距离最近的聚类中心点;根据第二距离、所述第一聚类中心点上一次更新前后的自身差值以及第二聚类中心点上一次更新前后的自身差值获取第三距离的预测值,其中,所述第二距离为上一次聚类距离遍历过程中所述第一聚类中心点与第二聚类中心点之间的距离,所述第二聚类中心点为当前聚类距离遍历过程中待遍历的聚类中心点;按照三角形不等式规则将所述第一距离的预测值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的预测值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第三距离的预测值小于两倍的所述第一距离的预测值,则根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理。3.根据权利要求2所述的方法,其特征在于,所述根据上一次更新后的所述第一聚类中心点对所述第二聚类中心点进行数据聚类处理,包括:计算所述上一次更新后的所述第一聚类中心点与所述样本点之间的距离,得到第一距离的实际值;按照三角形不等式规则将所述第一距离的实际值与所述第三距离的预测值进行比较;若所述第三距离的预测值大于或者等于两倍的所述第一距离的实际值,则将所述第二聚类中心点丢弃,以便进行聚类距离遍历时,不再计算所述样本点与所述第二聚类中心点之间的距离以及所述第二聚类中心点与其他待遍历聚类中心点之间的距离;若所述第三距离的预测值小于两倍的所述第一距离的实际值,则计算第四距离,并确定所述第四距离是否小于所述第一距离的实际值;其中,所述第四距离为所述样本点与所述第二聚类中心点的距离;若所述第四距离小于所述第一距离的实际值,则将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点。4.根据权利要求3所述的方法,其特征在于,所述将所述第二聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点,包括:若所述第四距离小于所述第一距离的实际值,并且当前聚类距离遍历完成,则将所述第二聚类中心点赋值给所述上一次更新后的所述第一聚类中心点,以及将所述第四距离赋值给所述第一距离的实际值;若所述第四距离小于所述第一距离的实际值,并且当前聚类距离遍历未完成,则将所述第二聚类中心点赋值给所述上一次更新后的所述第一聚类中心点,以及将所述第四距离赋值给所述第一距离的实际值,并基于赋值后的第一聚类中心点及赋值后的第一距离的实际值继续遍历所述当前聚类中心集中的下一个聚类中心点。5.根据权利要求3所述的方法,其特征在于,将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点,包括:若所述第四距离大于或者等于所述第一距离的实际值,并且当前聚类距离遍历完成,则将所述上一次更新后的所述第一聚类中心点确定为当前距离遍历过程中与所述样本点距离最近的聚类中心点;若所述第四距离大于或者等于所述第一距离的实际值,并且当前聚类距离遍历未完成,则基于所述上一次更新后的所述第一聚类中心点以及所述第一距离的实际值继续遍历所述当前聚类中心集中的下一个聚类中心点。6.根据权利要求4或5所述的方法,其特征在于,在计算第四距离之前,所述方法还包括:计算第五距离,所述第五距离为所述第二聚类中心点与所述上一次更新后的所述第一聚类中心点之间的距...

【专利技术属性】
技术研发人员:杨诗向园洪春晓吕俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1