以离群点为中心带权重的AP聚类算法的改进方法技术

技术编号:15864060 阅读:79 留言:0更新日期:2017-07-23 08:44
本发明专利技术公开了一种以离群点为中心带权重的AP聚类算法的改进方法,其包括以下步骤:步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;步骤二,是否对周期T内的AP聚类离群点检测,是则转步骤四,否则转步骤三;步骤三,T+1周期内样本点权重更新;步骤四,周期T+1内的AP聚类离群点检测;步骤五,离群点入库;步骤六,结束。本发明专利技术能够增加检测率,降低遗漏的概率,提高使用效率,降低成本,使用方便。

【技术实现步骤摘要】
以离群点为中心带权重的AP聚类算法的改进方法
本专利技术涉及一种AP聚类算法的改方法,特别是涉及一种以离群点为中心带权重的AP聚类算法的改进方法。
技术介绍
对于流式处理过程中,离群点的检测可以看成是时间序列的离群点检测,但是对于某时间范围内(t0-t1)内被检测到是离群点,由于离群点本身的带有学习能力,那么在下一个周期(t1-t2)不一定可以认为上一个周期的离群点数据还是离群点数据,但是在此周期的离群点任然是离群点。如果长时间的积累,那么我们对”老油条”式的离群点无法检测。
技术实现思路
本专利技术所要解决的技术问题是提供一种以离群点为中心带权重的AP聚类算法的改进方法,其能够增加检测率,降低遗漏的概率,提高使用效率,降低成本,使用方便。本专利技术是通过下述技术方案来解决上述技术问题的:一种以离群点为中心带权重的AP聚类算法的改进方法,其包括以下步骤:步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;步骤二,是否对周期T内的AP聚类离群点检测,是则转步骤四,否则转步骤三;步骤三,T+1周期内样本点权重更新;步骤四,周期T+1内的AP聚类离群点检测;步骤五,离群点入库;步骤六,结束。优选地,所述步骤一采用等距离的方式进行划分,在迭代过程中可以根据上次离群点统计情况按概率分布的形式进行划分,并初始化样本权重。优选地,所述步骤二和步骤四都采用AP聚类计算离群点,并根据是否是离群点增加对应本周期内样本点的权重。优选地,所述步骤三对于增加权重的样本在下一个周期内的相同样本或则相似样本进行更新权重,对于权重的更新可以采用错分样本对数比率的方式,或增强学习的积累回报期望,或则信息增益的作为权重。优选地,所述步骤五对于所有的周期都执行完成后,离群点已经入库,这个时候我们可以采用迭代的方式继续的检测出新的离群点,最终产出最后的离群点。本专利技术的积极进步效果在于:本专利技术能够描述了离群点的动态学习过程,而不是一层不变的孤立点;增加了离群点在下一个周期的权重,这样就增加了在下次周期被检测的概率;通过反复的迭代方式发现离群点,效果比较突出,遗漏的概率比较低。附图说明图1为本专利技术的流程图。具体实施方式下面结合附图给出本专利技术较佳实施例,以详细说明本专利技术的技术方案。如图1所示,本专利技术以离群点为中心带权重的AP聚类算法的改进方法包括以下步骤:步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;步骤二,是否对周期T内的AP(AffinityPropagation,亲和力传播)聚类离群点检测,是则转步骤四,否则转步骤三;步骤三,T+1周期内样本点权重更新;步骤四,周期T+1内的AP聚类离群点检测;步骤五,离群点入库;步骤六,结束。所述步骤一采用等距离的方式进行划分,在迭代过程中可以根据上次离群点统计情况按概率分布的形式进行划分,并初始化样本权重。所述步骤二和步骤四都采用AP聚类计算离群点,并根据是否是离群点增加对应本周期内样本点的权重。所述步骤三对于增加权重的样本在下一个周期内的相同样本或则相似样本进行更新权重,对于权重的更新可以采用错分样本对数比率的方式,或增强学习的积累回报期望,或则信息增益的作为权重等等。所述步骤五对于所有的周期都执行完成后,离群点已经入库,这个时候我们可以采用迭代的方式继续的检测出新的离群点,最终产出最后的离群点。所述权重的计算方式采用多种方式,可以采用错分样本对数比率的方式,或增强学习的积累回报期望。或则信息增益的作为权重等等。所述离群点在所有的时间周期内都是可能存在的,一旦发现不能在其他的周期内“逃逸”,必须对周期内的离群点进行权重加强,减少逃逸的可能性。以上所述的具体实施例,对本专利技术的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本专利技术的具体实施例而已,并不用于限制本专利技术,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
以离群点为中心带权重的AP聚类算法的改进方法

【技术保护点】
一种以离群点为中心带权重的AP聚类算法的改进方法,其特征在于,其包括以下步骤:步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;步骤二,是否对周期T内的AP聚类离群点检测,是则转步骤四,否则转步骤三;步骤三,T+1周期内样本点权重更新;步骤四,周期T+1内的AP聚类离群点检测;步骤五,离群点入库;步骤六,结束。

【技术特征摘要】
1.一种以离群点为中心带权重的AP聚类算法的改进方法,其特征在于,其包括以下步骤:步骤一,对流式数据检测宽度的划分,是则转步骤二,否则转步骤五;步骤二,是否对周期T内的AP聚类离群点检测,是则转步骤四,否则转步骤三;步骤三,T+1周期内样本点权重更新;步骤四,周期T+1内的AP聚类离群点检测;步骤五,离群点入库;步骤六,结束。2.如权利要求1所述的以离群点为中心带权重的AP聚类算法的改进方法,其特征在于,所述步骤一采用等距离的方式进行划分,在迭代过程中根据上次离群点统计情况按概率分布的形式进行划分,并初始化样本权重。3.如权利要求1所述的以离群点为中心带权重的AP聚类...

【专利技术属性】
技术研发人员:贺晨阳闵圣捷彭京李建赖宇谢伯栋姜淮韬赵敬千白云杨伟华张仕洪石葆梅周洋杨春勇
申请(专利权)人:成都市公安局中电科华云信息技术有限公司成都市公安科学技术研究所四川省公安厅四川省公安科研中心
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1