【技术实现步骤摘要】
一种海量数据聚类分析方法及装置
本专利技术涉及数据分析领域,特别涉及一种海量数据聚类分析方法及装置。
技术介绍
随着社会经济的发展、电话、互联网的普及,电信诈骗犯罪率不断升高,而且由于电信诈骗借助于边界的通信手段,因此造成的社会危害范围更广。与一般的刑事案件不同,电信诈骗有一定门槛,一般是团伙作案,因此通过犯罪嫌疑人的通话和网络行为数据识别犯罪团伙成为公安机关遏制电信诈骗犯罪的一种有效途径。随着大数据时代的到来,数据挖掘已经成为一把服务于公共安全领域的利器。通过数据挖掘对犯罪嫌疑人的数据分布规律进行挖掘,能够有效的识别其中的特征。犯罪团伙识别中最常见的方式为聚类算法。例如:李亮基于改进的GN算法设计了嫌疑人的社会网络识别算法,潘潇基于Louvain进行了电信诈骗的团伙识别。但随着大数据时代的发展,人们的行为产生的数据特征和数据量快速增加,已经远远超出传统方法的数据处理能力。因此,传统的电信诈骗犯罪团伙识别方法并不能快速有效地在大数据环境下对犯罪团伙进行有效地甄别。为了更好的根据公安部门所掌握的数据来识别出电信 ...
【技术保护点】
1.一种海量数据聚类分析方法,其特征在于:包括以下步骤:/nS1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;/nS2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;/nS3、将分区结果进行合并得到全局的类簇ID。/n
【技术特征摘要】
1.一种海量数据聚类分析方法,其特征在于:包括以下步骤:
S1、基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区;
S2、在每个分区内对分区内的数据并行进行聚类,并保存聚类ID;
S3、将分区结果进行合并得到全局的类簇ID。
2.根据权利要求1所述的一种海量数据聚类分析方法,其特征在于:所述步骤S1中基于交叠分区的GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括:
确定交叠分区的方法:将原始分区沿各个维度向外扩展epsilon邻域得到交叠分区。
3.根据权利要求2所述的一种海量数据聚类分析方法,其特征在于:在进行交叠分区的GeoHash编码算法时,epsilon不能超过重要维度上下界之差的15%或本维度上下界之差的15%。
4.根据权利要求2所述的一种海量数据聚类分析方法,其特征在于:所述步骤S1中GeoHash编码算法对原始数据进行处理,确定原始数据中的各个数据对应的分区的方法包括以下步骤:
S101、初始化Hash值为二进制数0、迭代次数为0、给定迭代次数N、每个维度上界和下界;
S102、对于任意数据D,选定维度为迭代次数关于维度数取模,当数据D在该维度的值不大于该维度的上界和下界的中点时,则Hash值左移一位,然后将该维度的上界更新为原该维度的中点,迭代次数加1;当数据D在该维度的值大于该维度的上界和下界的中点时,则Hash值左移一位加1,然后将该维度的下界更新为原该维度的中点,迭代次数加1;
S103、重复S102到迭代次数为N,当迭代次数为N时转入步骤S104;
S104、输出数据D所在区域的Hash值作为GeoHash编码;
S105、遍历原始数据,获取原始数据中所有数据的G...
【专利技术属性】
技术研发人员:查文宇,曾理,徐浩,王纯斌,赵神州,张艳清,
申请(专利权)人:成都四方伟业软件股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。